LLM 大模型基础认知篇
目录
1、基本概述
2、大模型工作原理
3、关键知识点
(1)RAG 知识库
(2)蒸馏
(3)微调
(4)智能体
1、基本概述
大型语言模型(Large Language Model, LLM)是一种基于深度学习的自然语言处理模型,其核心架构为 Transformer 神经网络。这类模型的参数量通常达到千亿级别(如 GPT-3 的 1750 亿参数、PaLM 的5400亿参数),通过海量文本数据训练,具备对语言规律的深度建模能力。Transformer 架构通过自注意力机制实现了对长距离语义依赖的高效捕捉,其编码器-解码器结构支持并行计算,成为 LLM 的技术基石。
下面是 LLM 大模型的几个主要特点:
(1)超大规模参数:LLM 的参数量级从数十亿到数万亿不等,这种规模使其能够存储复杂的语言模式。例如,GPT-4 的参数量达到 1.8 万亿,而 DeepSeek V3 的总参数更是高达6710亿。参数规模与模型性能呈指数级正相关,根据OpenAI的扩展法则(Scaling Law),计算量增加10倍时,模型规模需扩大5倍,数据量需增加2倍。
(2)海量训练数据:LLM通常使用TB级文本语料进行训练,涵盖网页、书籍、代码等多源数据。DeepSeek V3的预训练数据达到14.8T tokens(约相当于2.5倍维基百科总词量),并通过数据清洗和权重优化提升质量。多模态融合成为新趋势,如PaLM-E模型已实现文本与图像的联合训练。
(3)涌现能力与泛化性:当模型规模突破临界点(约100亿参数)时,LLM会展现出零样本学习、复杂推理等"涌现能力"。例如,GPT-4在未专门训练的情况下能解决高等数学问题。这种泛化能力使LLM可应用于机器翻译、代码生成、知识问答等数百种场景。
(4)训练与推理成本:训练千亿级模型需要百万GPU小时的计算资源,但技术创新正在降低成本。以DeepSeek V3为例,其采用FP8混合精度和DualPipe算法,仅耗资557万美元完成训练,效率较Llama 3提升11倍。在推理环节,MoE架构通过动态激活专家模块(如DeepSeek V3仅激活370亿参数)降低能耗。
特别的,最近国产最牛逼的模型 DeepSeek 横空出世,作为开源模型的标杆,在独特的架构设计和训练策略上展示了很多创新。
DeepSeek V3 主要特点如下:
(1)混合专家架构(MoE)优化:采用256个细粒度专家的DeepSeekMoE结构,通过负载均衡策略将专家利用率提升至98%,相比传统MoE模型减少30%计算冗余。该架构支持动态路由,在代码生成任务中激活数学专家模块,在文学创作时调用语义理解专家。
(2)多头潜在注意力机制(MLA):通过低秩联合压缩技术,将键值缓存需求降低至传统Transformer的1/4,使4096 tokens长文本推理的显存占用减少60%。该机制在SWE-bench代码测试中实现89%的准确率,超越GPT-4o的85%。
(3)训练效率革新
-
- FP8混合精度:首次在千亿级模型验证8位浮点训练可行性,内存占用减少40%
- DualPipe算法:实现计算与通信的98%重叠率,单卡吞吐量达3.2万tokens/秒
- 多令牌预测(MTP) :同时预测后续4个token,训练速度提升2.3倍
(4)性能指标突破:在MATH 500数学竞赛级测试中获得97.3%准确率,超越人类平均水平(约65%);代码生成任务中,SWE-bench验证通过率达72.5%,较GPT-4提升15%。其API成本仅为Claude 3.5的1/10,实现性能与成本的帕累托最优。
DeepSeek R1 作为专注推理任务的衍生模型,在 DeepSeek V3 基础上实现了方法论创新:
(1)纯强化学习范式:摒弃传统监督微调(SFT),采用群组相对策略优化(GRPO)算法,通过3.2亿次试错迭代自主进化。在AIME 2024国际数学奥林匹克测试中,R1的pass@1分数从基线的15.6%跃升至71%。
(2)冷启动-蒸馏双阶段训练
-
- 冷启动阶段:注入200万条高质量思维链(CoT)数据,解决初始探索的盲目性
- 知识蒸馏:将R1的推理能力迁移至7B小模型,使其在GSM8K数学测试中的准确率从45%提升至82%
(3)实际应用优势:
-
- 医疗诊断:在CMR-Xray影像报告中,推理错误率较传统模型降低58%
- 科研辅助:处理蛋白质折叠预测任务时,速度比AlphaFold快3倍且能耗降低70%
- 多模态扩展:视觉语言模型VLM-R1在领域外测试数据上的泛化性提升40%
(4)成本革命:通过 PTX 指令级优化,R1 的每百万 tokens 推理成本降至 0.002 美元,仅为 GPT-4的 1/500。其开源版本支持本地部署,在消费级显卡(如RTX 4090)上即可运行。最近 DeepSeek 官方公布其成本利润率高达 545%,很牛逼!!!
2、大模型工作原理
核心架构:Transformer的革新性设计
LLM 的核心架构基于 Transformer,这是一种革命性的神经网络结构。其核心组件自注意力机制(Self-Attention)使模型能够同时关注输入序列中所有位置的词,并动态计算词与词之间的关联权重。例如,在句子“猫追老鼠”中,模型通过自注意力机制可以捕捉到“追”的动作主体是“猫”,客体是“老鼠”。这种机制解决了传统RNN无法处理长距离依赖的问题,并支持并行计算,极大提升了训练效率。
Transformer的具体结构包含:
编码器-解码器框架:编码器负责将输入文本转换为上下文向量,解码器基于此生成输出文本。
位置编码:通过旋转位置编码(RoPE)等技术,将词的位置信息融入向量表示,增强模型对词序的感知。
多头注意力:允许模型从不同角度分析文本,例如同时关注语法结构和语义关系。
预训练:从海量数据中学习语言规律
预训练是 LLM 能力的基石。模型通过无监督学习在大规模文本(如网页、书籍、代码)上完成以下任务:
- 语言建模(Language Modeling):预测被掩盖的词(如 BERT 的 MLM 任务)或下一个词(如 GPT的自回归预测)。
- 训练规模:现代 LLM 的预训练数据量可达数万亿 Token(例如 LLaMA 3 的 3T Token),模型参数规模从数十亿到上万亿不等。
预训练目标函数通常采用交叉熵损失,通过梯度下降不断优化模型对语言统计规律的拟合能力。例如,在预测句子“天空是___”时,模型需要学习“蓝色”比“苹果”更可能出现在此位置的概率分布。
微调:从通用到专用的能力迁移
预训练后的模型通过有监督微调适应具体任务:
- 全参数微调:更新所有模型参数,适合数据充足场景,但计算成本高。
- 参数高效微调:例如LoRA(低秩适配),仅训练新增的低秩矩阵,在保持原参数不变的情况下实现任务适配。这种方法可将训练成本降低90%以上。
- 多任务微调:同时学习多个相关任务(如翻译+摘要),提升模型泛化能力。
我们在使用 LLM 大模型的时候,大语言模型的工作概括来说是根据给定的文本预测下一个 token。对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。
大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的 token,根据概率最大原则预测出下一个最有可能的 token,然后将该预测的 token 加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个 token,这个过程叫做自回归。直到输出特殊 token(如<EOS>,end of sentence,专门用来控制推理何时结束)或输出长度达到阈值。
3、关键知识点
(1)RAG 知识库
知识库是结构化或半结构化的外部信息库(如企业文档、行业标准),通过检索增强生成(RAG)技术辅助 LLM 生成更准确、专业的回答。例如,医疗诊断系统结合医学知识库可减少“幻觉”错误。
知识库的出现主要是因为当前通用的 LLM 大模型存在如下问题:
- 训练数据不是实时的,知识领域覆盖不足的问题,无法实时更新或涵盖专有知识;
- LLM 存在“幻觉”问题,会一本正经的胡说八道,其输出结果无法被论证;
- 企业内部存在知识壁垒,LLM 模型训练数据中没有企业的私有数据;
通过对用户整理的私有文档(各种多模态数据)进行分块,使用 Embedding 模型(如BERT)将文本转换为向量,构建高效检索索引,并存入向量数据库。在用户查询时,先从知识库召回相关片段,再连同 Prompt 输入 LLM 模型生成答案。
(2)蒸馏
蒸馏是一种通过将大型模型(教师模型)的知识迁移到小型模型(学生模型)中的训练策略。其核心目标是保持小模型的性能接近大模型,同时显著降低计算资源需求和推理延迟。例如,目前很多厂商基于他们原有的模型进行蒸馏,使用 DeepSeek 的输出.
技术流程:
- 选择教师模型:通常为高性能的大模型(如GPT-4)。
- 生成软标签:教师模型对未标注数据进行预测,生成概率分布(软目标)而非硬标签,保留更多知识细节。
- 训练学生模型:学生模型学习模仿教师模型的输出或中间层表示,结合自身损失函数优化。
- 评估与迭代:验证学生模型在目标任务上的性能,必要时进行多轮蒸馏或引入多教师模型。
存在的不足:
- 信息丢失:小模型无法完全复现大模型的复杂推理能力,尤其在生成任务中表现受限。
- 依赖教师质量:若教师模型存在偏差,学生模型可能继承错误。
- 数据需求:需大量未标注数据生成软标签,某些场景下难以满足。
(3)微调
微调是在预训练模型基础上,使用特定领域的小规模数据集进行二次训练,使模型适应具体任务(如法律文档分析、医疗问答)。例如,GPT-3.5 Turbo可通过微调优化客服对话的语气和风格。
虽然预训练模型虽具备广泛语言理解能力,但缺乏垂直领域的专业知识(如金融术语、医学指南),同时也很慢满足企业个性化的需求,经过微调的 LLM 系统还可以简化 Prompt 的难度。
不过微调存在一些难度,需要有算力支持,而且需要适当的调优,需要有相关专业的人才支持。大部分还是采用的 RAG 知识库。
技术流程:
- 数据准备:清洗并划分领域数据集为训练集、验证集和测试集。
- 参数调整:通过监督学习更新模型权重,通常仅调整部分层(如LoRA技术)以减少计算量。
- 超参数优化:调整学习率、批量大小等,防止过拟合或灾难性遗忘(即丢失预训练知识)。
- 评估与部署:验证模型在目标任务的准确率,并通过持续迭代优化。
(4)智能体
注意此处的智能体与很多国内厂商宣传的“智能体”不同,不是简单的 prompt 工程。
智能体是基于 LLM 的自主系统,能感知环境、分解任务、调用工具并持续优化决策。例如,AI 客服智能体可自动处理用户投诉,分派工单。从软件工程的角度来看,智能体是指基于大语言模型的,能使用工具与外部世界进行交互的计算机程序。
下面是智能体与 LLM 大模型的区别:
- 它不局限于输出回答,还能通过插件(工具)与外部世界交互,例如发送邮件、发布文章、联网查询、执行代码、下单购物等……理论上只要是计算机程序能做的事情,它都能做到。
- 它不再是被动式地接受多轮提问,而是能自主地推理(拆解任务、选择最优路径)、主动纠错、自主完成任务。你可以让它每完成一个或多个步骤就给你同步进展,和你确认下一步的动作,也可以授权它自主地完成所有步骤。
- 它不仅可以完成简单的事情,还能完成复杂的任务,比如搭建一个网站、开发一款游戏,因为它能拆解任务、自我纠错、调用外部工具等。
- 它可以自我迭代,吸取历史经验,不断成长,因为它不仅能记住这次会话里你对它的指导,还能记住以前的会话里你给它提过的要求。
- 它不仅能完成通用的任务,还能完成特定领域的任务,因为它可以接入特定领域的外部知识库和工具。
关键组件:
- 规划与推理:将任务分解为子目标,并制定执行路径(如先检索再生成)。
- 记忆机制:短期记忆存储对话历史,长期记忆记录经验以提升决策质量。
- 工具调用:集成搜索引擎、计算器等外部工具,弥补纯文本生成的局限。
- 反思与迭代:通过自我评估调整策略,例如检测错误后重新规划步骤。
万字赏析DS创造之美:DeepSeek R1 是怎样炼成的?-虎嗅网
DeepSeek-V3 / R1 推理系统概览 - 知乎
阿里云培训中心