当前位置：首页 > news >正文

LLM 大模型基础认知篇

news 2025/3/13 4:52:33

1、基本概述

2、大模型工作原理

3、关键知识点

（1）RAG 知识库

（2）蒸馏

（3）微调

（4）智能体

1、基本概述

大型语言模型（Large Language Model, LLM）是一种基于深度学习的自然语言处理模型，其核心架构为 Transformer 神经网络。这类模型的参数量通常达到千亿级别（如 GPT-3 的 1750 亿参数、PaLM 的5400亿参数），通过海量文本数据训练，具备对语言规律的深度建模能力。Transformer 架构通过自注意力机制实现了对长距离语义依赖的高效捕捉，其编码器-解码器结构支持并行计算，成为 LLM 的技术基石。

下面是 LLM 大模型的几个主要特点：

（1）超大规模参数：LLM 的参数量级从数十亿到数万亿不等，这种规模使其能够存储复杂的语言模式。例如，GPT-4 的参数量达到 1.8 万亿，而 DeepSeek V3 的总参数更是高达6710亿。参数规模与模型性能呈指数级正相关，根据OpenAI的扩展法则（Scaling Law），计算量增加10倍时，模型规模需扩大5倍，数据量需增加2倍。

（2）海量训练数据：LLM通常使用TB级文本语料进行训练，涵盖网页、书籍、代码等多源数据。DeepSeek V3的预训练数据达到14.8T tokens（约相当于2.5倍维基百科总词量），并通过数据清洗和权重优化提升质量。多模态融合成为新趋势，如PaLM-E模型已实现文本与图像的联合训练。

（3）涌现能力与泛化性：当模型规模突破临界点（约100亿参数）时，LLM会展现出零样本学习、复杂推理等"涌现能力"。例如，GPT-4在未专门训练的情况下能解决高等数学问题。这种泛化能力使LLM可应用于机器翻译、代码生成、知识问答等数百种场景。

（4）训练与推理成本：训练千亿级模型需要百万GPU小时的计算资源，但技术创新正在降低成本。以DeepSeek V3为例，其采用FP8混合精度和DualPipe算法，仅耗资557万美元完成训练，效率较Llama 3提升11倍。在推理环节，MoE架构通过动态激活专家模块（如DeepSeek V3仅激活370亿参数）降低能耗。

特别的，最近国产最牛逼的模型 DeepSeek 横空出世，作为开源模型的标杆，在独特的架构设计和训练策略上展示了很多创新。

DeepSeek V3 主要特点如下：

（1）混合专家架构（MoE）优化：采用256个细粒度专家的DeepSeekMoE结构，通过负载均衡策略将专家利用率提升至98%，相比传统MoE模型减少30%计算冗余。该架构支持动态路由，在代码生成任务中激活数学专家模块，在文学创作时调用语义理解专家。

（2）多头潜在注意力机制（MLA）：通过低秩联合压缩技术，将键值缓存需求降低至传统Transformer的1/4，使4096 tokens长文本推理的显存占用减少60%。该机制在SWE-bench代码测试中实现89%的准确率，超越GPT-4o的85%。

（3）训练效率革新

- FP8混合精度：首次在千亿级模型验证8位浮点训练可行性，内存占用减少40%
- DualPipe算法：实现计算与通信的98%重叠率，单卡吞吐量达3.2万tokens/秒
- 多令牌预测（MTP） ：同时预测后续4个token，训练速度提升2.3倍

（4）性能指标突破：在MATH 500数学竞赛级测试中获得97.3%准确率，超越人类平均水平（约65%）；代码生成任务中，SWE-bench验证通过率达72.5%，较GPT-4提升15%。其API成本仅为Claude 3.5的1/10，实现性能与成本的帕累托最优。

DeepSeek R1 作为专注推理任务的衍生模型，在 DeepSeek V3 基础上实现了方法论创新：

（1）纯强化学习范式：摒弃传统监督微调（SFT），采用群组相对策略优化（GRPO）算法，通过3.2亿次试错迭代自主进化。在AIME 2024国际数学奥林匹克测试中，R1的pass@1分数从基线的15.6%跃升至71%。

（2）冷启动-蒸馏双阶段训练

- 冷启动阶段：注入200万条高质量思维链（CoT）数据，解决初始探索的盲目性
- 知识蒸馏：将R1的推理能力迁移至7B小模型，使其在GSM8K数学测试中的准确率从45%提升至82%

（3）实际应用优势：

- 医疗诊断：在CMR-Xray影像报告中，推理错误率较传统模型降低58%
- 科研辅助：处理蛋白质折叠预测任务时，速度比AlphaFold快3倍且能耗降低70%
- 多模态扩展：视觉语言模型VLM-R1在领域外测试数据上的泛化性提升40%

（4）成本革命：通过 PTX 指令级优化，R1 的每百万 tokens 推理成本降至 0.002 美元，仅为 GPT-4的 1/500。其开源版本支持本地部署，在消费级显卡（如RTX 4090）上即可运行。最近 DeepSeek 官方公布其成本利润率高达 545%，很牛逼！！！

2、大模型工作原理

核心架构：Transformer的革新性设计

LLM 的核心架构基于 Transformer，这是一种革命性的神经网络结构。其核心组件自注意力机制（Self-Attention）使模型能够同时关注输入序列中所有位置的词，并动态计算词与词之间的关联权重。例如，在句子“猫追老鼠”中，模型通过自注意力机制可以捕捉到“追”的动作主体是“猫”，客体是“老鼠”。这种机制解决了传统RNN无法处理长距离依赖的问题，并支持并行计算，极大提升了训练效率。

Transformer的具体结构包含：

编码器-解码器框架：编码器负责将输入文本转换为上下文向量，解码器基于此生成输出文本。

位置编码：通过旋转位置编码（RoPE）等技术，将词的位置信息融入向量表示，增强模型对词序的感知。

多头注意力：允许模型从不同角度分析文本，例如同时关注语法结构和语义关系。

预训练：从海量数据中学习语言规律

预训练是 LLM 能力的基石。模型通过无监督学习在大规模文本（如网页、书籍、代码）上完成以下任务：

语言建模（Language Modeling）：预测被掩盖的词（如 BERT 的 MLM 任务）或下一个词（如 GPT的自回归预测）。
训练规模：现代 LLM 的预训练数据量可达数万亿 Token（例如 LLaMA 3 的 3T Token），模型参数规模从数十亿到上万亿不等。

预训练目标函数通常采用交叉熵损失，通过梯度下降不断优化模型对语言统计规律的拟合能力。例如，在预测句子“天空是___”时，模型需要学习“蓝色”比“苹果”更可能出现在此位置的概率分布。

微调：从通用到专用的能力迁移

预训练后的模型通过有监督微调适应具体任务：

全参数微调：更新所有模型参数，适合数据充足场景，但计算成本高。

参数高效微调：例如LoRA（低秩适配），仅训练新增的低秩矩阵，在保持原参数不变的情况下实现任务适配。这种方法可将训练成本降低90%以上。
多任务微调：同时学习多个相关任务（如翻译+摘要），提升模型泛化能力。

我们在使用 LLM 大模型的时候，大语言模型的工作概括来说是根据给定的文本预测下一个 token。对我们来说，看似像在对大模型提问，但实际上是给了大模型一串提示文本，让它可以对后续的文本进行推理。

大模型的推理过程不是一步到位的，当大模型进行推理时，它会基于现有的 token，根据概率最大原则预测出下一个最有可能的 token，然后将该预测的 token 加入到输入序列中，并将更新后的输入序列继续输入大模型预测下一个 token，这个过程叫做自回归。直到输出特殊 token（如<EOS>，end of sentence，专门用来控制推理何时结束）或输出长度达到阈值。

3、关键知识点

（1）RAG 知识库

知识库是结构化或半结构化的外部信息库（如企业文档、行业标准），通过检索增强生成（RAG）技术辅助 LLM 生成更准确、专业的回答。例如，医疗诊断系统结合医学知识库可减少“幻觉”错误。

知识库的出现主要是因为当前通用的 LLM 大模型存在如下问题：

训练数据不是实时的，知识领域覆盖不足的问题，无法实时更新或涵盖专有知识；
LLM 存在“幻觉”问题，会一本正经的胡说八道，其输出结果无法被论证；
企业内部存在知识壁垒，LLM 模型训练数据中没有企业的私有数据；

通过对用户整理的私有文档（各种多模态数据）进行分块，使用 Embedding 模型（如BERT）将文本转换为向量，构建高效检索索引，并存入向量数据库。在用户查询时，先从知识库召回相关片段，再连同 Prompt 输入 LLM 模型生成答案。

（2）蒸馏

蒸馏是一种通过将大型模型（教师模型）的知识迁移到小型模型（学生模型）中的训练策略。其核心目标是保持小模型的性能接近大模型，同时显著降低计算资源需求和推理延迟。例如，目前很多厂商基于他们原有的模型进行蒸馏，使用 DeepSeek 的输出.

技术流程：

选择教师模型：通常为高性能的大模型（如GPT-4）。
生成软标签：教师模型对未标注数据进行预测，生成概率分布（软目标）而非硬标签，保留更多知识细节。
训练学生模型：学生模型学习模仿教师模型的输出或中间层表示，结合自身损失函数优化。
评估与迭代：验证学生模型在目标任务上的性能，必要时进行多轮蒸馏或引入多教师模型。

存在的不足：

信息丢失：小模型无法完全复现大模型的复杂推理能力，尤其在生成任务中表现受限。
依赖教师质量：若教师模型存在偏差，学生模型可能继承错误。
数据需求：需大量未标注数据生成软标签，某些场景下难以满足。

（3）微调

微调是在预训练模型基础上，使用特定领域的小规模数据集进行二次训练，使模型适应具体任务（如法律文档分析、医疗问答）。例如，GPT-3.5 Turbo可通过微调优化客服对话的语气和风格。

虽然预训练模型虽具备广泛语言理解能力，但缺乏垂直领域的专业知识（如金融术语、医学指南），同时也很慢满足企业个性化的需求，经过微调的 LLM 系统还可以简化 Prompt 的难度。

不过微调存在一些难度，需要有算力支持，而且需要适当的调优，需要有相关专业的人才支持。大部分还是采用的 RAG 知识库。

技术流程：

数据准备：清洗并划分领域数据集为训练集、验证集和测试集。
参数调整：通过监督学习更新模型权重，通常仅调整部分层（如LoRA技术）以减少计算量。
超参数优化：调整学习率、批量大小等，防止过拟合或灾难性遗忘（即丢失预训练知识）。
评估与部署：验证模型在目标任务的准确率，并通过持续迭代优化。

（4）智能体

注意此处的智能体与很多国内厂商宣传的“智能体”不同，不是简单的 prompt 工程。

智能体是基于 LLM 的自主系统，能感知环境、分解任务、调用工具并持续优化决策。例如，AI 客服智能体可自动处理用户投诉，分派工单。从软件工程的角度来看，智能体是指基于大语言模型的，能使用工具与外部世界进行交互的计算机程序。

下面是智能体与 LLM 大模型的区别：

它不局限于输出回答，还能通过插件（工具）与外部世界交互，例如发送邮件、发布文章、联网查询、执行代码、下单购物等……理论上只要是计算机程序能做的事情，它都能做到。
它不再是被动式地接受多轮提问，而是能自主地推理（拆解任务、选择最优路径）、主动纠错、自主完成任务。你可以让它每完成一个或多个步骤就给你同步进展，和你确认下一步的动作，也可以授权它自主地完成所有步骤。
它不仅可以完成简单的事情，还能完成复杂的任务，比如搭建一个网站、开发一款游戏，因为它能拆解任务、自我纠错、调用外部工具等。
它可以自我迭代，吸取历史经验，不断成长，因为它不仅能记住这次会话里你对它的指导，还能记住以前的会话里你给它提过的要求。
它不仅能完成通用的任务，还能完成特定领域的任务，因为它可以接入特定领域的外部知识库和工具。

关键组件：