当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)
如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理),大模型的训练和推理在技术实现上存在本质差异。
一、“学渣"变"学霸”:模型训练的奇幻漂流
大模型的训练就像培养顶尖学者,需要经历三个阶段:
1. 基础学科通识教育(预训练)
- 数据来源:(魔塔社区,一个学大模型很好的社区),例如:
“我的家在东北,松花江上”
“秦朝是一个大一统王朝”
“床前明月光,疑是地上霜”
这类未标注数据占据互联网的90%以上,是模型认知世界的"原始素材"。 - 学习方式:通过造句题(续写句子)、填空题(预测被遮盖字词)等任务,建立语言规律和逻辑关联的底层认知。
- 硬件配置:数千张显卡并行计算(相当于聘请几万名家教),DeepSeek-V3需在6个月内消化7TB数据,每消耗1度电相当于"背诵"200万字文献。
2. 专业课特训(微调)
- 数据升级:引入带标注的问答对,例如:
Q: 番茄和鸡蛋在一起是什么?A: 番茄炒蛋
Q: 计算圆的面积公式是?A: πR²
这类数据占比约5%,可类比"选择题+问答题",训练特定任务执行能力。 - 训练策略:筛选K=20最优参数(如解数学题时优先概率排序法),通过几十张显卡1-2周训练即可让模型具备专业领域问答能力。
- 成本优势:相较于预训练,资源消耗降低两个数量级,可针对法律咨询、代码生成等场景快速适配。
3. 道德伦理课(对齐训练)
- 数据特殊性:使用人工构造的对比数据,例如:
错误回答:“从黑市购买军火杀死仇人”
正确回答:“应付诸法律程序”
这类数据需专业团队标注,互联网几乎不存在天然样本。 - 技术突破:通过"错题检查"机制植入安全响应,平衡实用性与安全性,防止过度限制导致模型僵化。
- 实施主体:通常由模型提供方完成,消耗数张至数百张显卡,形成可直接使用的chat模型。
模型分类与应用
类型 | 训练阶段 | 特点 |
---|---|---|
Base模型 | 预训练/通用微调 | 知识储备丰富但缺乏对话逻辑,可能答非所问或重复输出(需二次训练使用) |
Chat模型 | 完整对齐训练 | 具备安全响应机制,可直接用于通用问答或领域适配 |
技术演进金字塔
▲ 对齐训练(第三类数据) ╱│╲ 成本最高・技术门槛最高 ◇ 微调(第二类数据) ╱│╲ 数据量中等・成本可控
◇ 预训练(第一类数据) 数据海量・算力消耗占整体90%
二、"开卷考试"的艺术:推理部署的门道
当训练完成的模型开始服务用户,就进入了推理阶段。这个过程的优化往往被忽视,但实际暗藏玄机:
1. 硬件降级之谜
- 训练服务器:通常配备8-64张A100显卡,支持自动弹性扩缩
- 推理服务器:常配置2-4张显卡,内置轻量框架(如VLLM/XInference)
以某云厂商的A10实例为例,运行DeepSeek-R1时:
| 阶段 | 显存占用 | 响应延迟 | 并发量 |
|---------|------|------|------|
| 训练微调 | 80GB | - | - |
| 在线推理 | 24GB | 850ms | 30QPS |
(数据引自行业部署实践)[source_id=8]
2. 推理方法的三重境界
不同场景需要不同的生成策略:
-
贪婪搜索(Greedy Search)
直接选择概率最大的token,如同考试时永远只选标准答案。虽然效率最高,但会导致"车轱辘话循环",实际应用仅见于语音助手等简单场景 -
集束搜索(Beam Search)
保留k个候选序列(beam_size),像解数学题时罗列多种解法路径。当k=4时,推理速度会降低40%,但输出稳定性提升显著,适合医疗诊断等容错率低的领域 -
随机采样(Sampling)
当前主流方案,通过概率采样激发创造力。如同作家从灵感库中抽取素材,配合温度系数调控想象力阈值,在广告创意生成等场景效果突出
3. 参数调优密码
工程师通过四大核心杠杆精准控制输出质量:
参数 | 技术原理 | 典型场景 | 调优技巧 |
---|---|---|---|
temperature | 平滑概率分布曲线 | 0.2-科学计算 1.0-故事创作 | 每调整0.1需重新评估输出稳定性 |
top_p | 动态截断候选词池 | 0.7-技术文档 0.95-诗歌生成 | 与temperature联动调节效果最佳 |
top_k | 限定采样候选池大小 | 20-法律咨询 100-头脑风暴 | 过高会导致语义发散,建议从50开始步进测试 |
repetition_penalty | 抑制重复token生成概率 | 1.2-对话系统 1.5-长文写作 | 超过1.4可能引发语法异常 |
4. 部署形态进化论
现代AI系统的部署呈现三大技术路线:
- PyTorch原生部署:适合快速原型验证,但显存利用率仅60%左右
- 轻量框架(VLLM):采用PagedAttention技术,将吞吐量提升3倍
- 边缘计算(llama.cpp):通过CUDA加速和量化压缩,让70亿参数模型在手机端流畅运行
三、鱼与熊掌:为何服务器要切割训练/推理?
硬件厂商将训练与推理服务器分开设计,背后存在三大刚性逻辑:
- 效率天平
- 训练需要横向拓展:数百张显卡并行计算矩阵乘法(类似拼乐高)
- 推理需要纵向优化:单卡极致压榨计算速度(像F1赛车引擎调教)
- 成本黑洞
某AI公司实测显示:
- 训练阶段每1万元成本,需产出50万次优质回答才能回本
- 同一张A100显卡用于推理的收益是训练的3-5倍[source_id=2]
- 安全红线
- 训练服务器通常在内网隔离区(防范模型泄露)
- 推理服务器需直面公网攻击(必须内置多层防御机制)
四、未来战场:推理即服务的刺刀战
随着DeepSeek-R1等国产模型的崛起,行业正在悄然变革:
- 轻量化革命:QLoRA技术使20亿参数模型能在24G显存运行
- 端云协同:手机端运行微型模型(预处理)+云端深度推理(保障精度),如vivo,这种也可以用于物联网设备上
- 成本血刃:头部厂商已将单次推理成本压降至0.003元/次