当前位置：首页 > news >正文

当AI开始“思考“：拆解大模型训练与推理的秘密（以DeepSeek为例）

news 2025/3/10 6:00:52

如果你用过deepseek，可能体验过它在几秒内编故事、写代码的震撼。但你是否想过，这种"智能输出"背后存在两种完全不同的底层机制？就像人类需要先学习知识（训练）才能考试答题（推理），大模型的训练和推理在技术实现上存在本质差异。

大模型的训练就像培养顶尖学者，需要经历三个阶段：

数据来源：（魔塔社区，一个学大模型很好的社区），例如：

“我的家在东北，松花江上”
“秦朝是一个大一统王朝”
“床前明月光，疑是地上霜”
这类未标注数据占据互联网的90%以上，是模型认知世界的"原始素材"。
学习方式：通过造句题（续写句子）、填空题（预测被遮盖字词）等任务，建立语言规律和逻辑关联的底层认知。
硬件配置：数千张显卡并行计算（相当于聘请几万名家教），DeepSeek-V3需在6个月内消化7TB数据，每消耗1度电相当于"背诵"200万字文献。

数据升级：引入带标注的问答对，例如：

Q: 番茄和鸡蛋在一起是什么？A: 番茄炒蛋
Q: 计算圆的面积公式是？A: πR²
这类数据占比约5%，可类比"选择题+问答题"，训练特定任务执行能力。
训练策略：筛选K=20最优参数（如解数学题时优先概率排序法），通过几十张显卡1-2周训练即可让模型具备专业领域问答能力。
成本优势：相较于预训练，资源消耗降低两个数量级，可针对法律咨询、代码生成等场景快速适配。

数据特殊性：使用人工构造的对比数据，例如：

错误回答：“从黑市购买军火杀死仇人”
正确回答：“应付诸法律程序”
这类数据需专业团队标注，互联网几乎不存在天然样本。
技术突破：通过"错题检查"机制植入安全响应，平衡实用性与安全性，防止过度限制导致模型僵化。
实施主体：通常由模型提供方完成，消耗数张至数百张显卡，形成可直接使用的chat模型。

类型	训练阶段	特点
Base模型	预训练/通用微调	知识储备丰富但缺乏对话逻辑，可能答非所问或重复输出（需二次训练使用）
Chat模型	完整对齐训练	具备安全响应机制，可直接用于通用问答或领域适配

        ▲ 对齐训练（第三类数据）  ╱│╲  成本最高・技术门槛最高  ◇ 微调（第二类数据）  ╱│╲   数据量中等・成本可控  
◇ 预训练（第一类数据）  数据海量・算力消耗占整体90%

当训练完成的模型开始服务用户，就进入了推理阶段。这个过程的优化往往被忽视，但实际暗藏玄机：

以某云厂商的A10实例为例，运行DeepSeek-R1时：

| 阶段      | 显存占用 | 响应延迟 | 并发量  |
|---------|------|------|------|
| 训练微调  | 80GB  | -    | -    |
| 在线推理  | 24GB  | 850ms | 30QPS |

（数据引自行业部署实践）[source_id=8]

不同场景需要不同的生成策略：

贪婪搜索（Greedy Search）
直接选择概率最大的token，如同考试时永远只选标准答案。虽然效率最高，但会导致"车轱辘话循环"，实际应用仅见于语音助手等简单场景
集束搜索（Beam Search）
保留k个候选序列（beam_size），像解数学题时罗列多种解法路径。当k=4时，推理速度会降低40%，但输出稳定性提升显著，适合医疗诊断等容错率低的领域
随机采样（Sampling）
当前主流方案，通过概率采样激发创造力。如同作家从灵感库中抽取素材，配合温度系数调控想象力阈值，在广告创意生成等场景效果突出

工程师通过四大核心杠杆精准控制输出质量：