当前位置: 首页 > news >正文

当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)

如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理),大模型的训练和推理在技术实现上存在本质差异。


一、“学渣"变"学霸”:模型训练的奇幻漂流

大模型的训练就像培养顶尖学者,需要经历三个阶段:

1. 基础学科通识教育(预训练)
  • 数据来源:(魔塔社区,一个学大模型很好的社区),例如:

    “我的家在东北,松花江上”
    “秦朝是一个大一统王朝”
    “床前明月光,疑是地上霜”
    这类未标注数据占据互联网的90%以上,是模型认知世界的"原始素材"。

  • 学习方式:通过造句题(续写句子)、填空题(预测被遮盖字词)等任务,建立语言规律和逻辑关联的底层认知。
  • 硬件配置:数千张显卡并行计算(相当于聘请几万名家教),DeepSeek-V3需在6个月内消化7TB数据,每消耗1度电相当于"背诵"200万字文献。
2. 专业课特训(微调)
  • 数据升级:引入带标注的问答对,例如:

    Q: 番茄和鸡蛋在一起是什么?A: 番茄炒蛋
    Q: 计算圆的面积公式是?A: πR²
    这类数据占比约5%,可类比"选择题+问答题",训练特定任务执行能力。

  • 训练策略:筛选K=20最优参数(如解数学题时优先概率排序法),通过几十张显卡1-2周训练即可让模型具备专业领域问答能力。
  • 成本优势:相较于预训练,资源消耗降低两个数量级,可针对法律咨询、代码生成等场景快速适配。
3. 道德伦理课(对齐训练)
  • 数据特殊性:使用人工构造的对比数据,例如:

    错误回答:“从黑市购买军火杀死仇人”
    正确回答:“应付诸法律程序”
    这类数据需专业团队标注,互联网几乎不存在天然样本。

  • 技术突破:通过"错题检查"机制植入安全响应,平衡实用性与安全性,防止过度限制导致模型僵化。
  • 实施主体:通常由模型提供方完成,消耗数张至数百张显卡,形成可直接使用的chat模型

模型分类与应用

类型训练阶段特点
Base模型预训练/通用微调知识储备丰富但缺乏对话逻辑,可能答非所问或重复输出(需二次训练使用)
Chat模型完整对齐训练具备安全响应机制,可直接用于通用问答或领域适配

技术演进金字塔

        ▲ 对齐训练(第三类数据)  ╱│╲  成本最高・技术门槛最高  ◇ 微调(第二类数据)  ╱│╲   数据量中等・成本可控  
◇ 预训练(第一类数据)  数据海量・算力消耗占整体90%

二、"开卷考试"的艺术:推理部署的门道

当训练完成的模型开始服务用户,就进入了推理阶段。这个过程的优化往往被忽视,但实际暗藏玄机:

1. 硬件降级之谜
  • 训练服务器:通常配备8-64张A100显卡,支持自动弹性扩缩
  • 推理服务器:常配置2-4张显卡,内置轻量框架(如VLLM/XInference)

以某云厂商的A10实例为例,运行DeepSeek-R1时:

| 阶段      | 显存占用 | 响应延迟 | 并发量  |
|---------|------|------|------|
| 训练微调  | 80GB  | -    | -    |
| 在线推理  | 24GB  | 850ms | 30QPS |

(数据引自行业部署实践)[source_id=8]

2. 推理方法的三重境界

不同场景需要不同的生成策略:

  • 贪婪搜索(Greedy Search)
    直接选择概率最大的token,如同考试时永远只选标准答案。虽然效率最高,但会导致"车轱辘话循环",实际应用仅见于语音助手等简单场景

  • 集束搜索(Beam Search)
    保留k个候选序列(beam_size),像解数学题时罗列多种解法路径。当k=4时,推理速度会降低40%,但输出稳定性提升显著,适合医疗诊断等容错率低的领域

  • 随机采样(Sampling)
    当前主流方案,通过概率采样激发创造力。如同作家从灵感库中抽取素材,配合温度系数调控想象力阈值,在广告创意生成等场景效果突出

3. 参数调优密码

工程师通过四大核心杠杆精准控制输出质量:

参数技术原理典型场景调优技巧
temperature平滑概率分布曲线0.2-科学计算
1.0-故事创作
每调整0.1需重新评估输出稳定性
top_p动态截断候选词池0.7-技术文档
0.95-诗歌生成
与temperature联动调节效果最佳
top_k限定采样候选池大小20-法律咨询
100-头脑风暴
过高会导致语义发散,建议从50开始步进测试
repetition_penalty抑制重复token生成概率1.2-对话系统
1.5-长文写作
超过1.4可能引发语法异常
4. 部署形态进化论

现代AI系统的部署呈现三大技术路线:

  • PyTorch原生部署:适合快速原型验证,但显存利用率仅60%左右
  • 轻量框架(VLLM):采用PagedAttention技术,将吞吐量提升3倍
  • 边缘计算(llama.cpp):通过CUDA加速和量化压缩,让70亿参数模型在手机端流畅运行

三、鱼与熊掌:为何服务器要切割训练/推理?

硬件厂商将训练与推理服务器分开设计,背后存在三大刚性逻辑:

  1. 效率天平
  • 训练需要横向拓展:数百张显卡并行计算矩阵乘法(类似拼乐高)
  • 推理需要纵向优化:单卡极致压榨计算速度(像F1赛车引擎调教)
  1. 成本黑洞
    某AI公司实测显示:
  • 训练阶段每1万元成本,需产出50万次优质回答才能回本
  • 同一张A100显卡用于推理的收益是训练的3-5倍[source_id=2]
  1. 安全红线
  • 训练服务器通常在内网隔离区(防范模型泄露)
  • 推理服务器需直面公网攻击(必须内置多层防御机制)

四、未来战场:推理即服务的刺刀战

随着DeepSeek-R1等国产模型的崛起,行业正在悄然变革:

  • 轻量化革命:QLoRA技术使20亿参数模型能在24G显存运行
  • 端云协同:手机端运行微型模型(预处理)+云端深度推理(保障精度),如vivo,这种也可以用于物联网设备上
  • 成本血刃:头部厂商已将单次推理成本压降至0.003元/次

http://www.mrgr.cn/news/93589.html

相关文章:

  • Linux云计算SRE-第十七周
  • MAC电脑常用操作
  • leetcode日记(84)交错字符串
  • pyside6学习专栏(九):在PySide6中使用PySide6.QtCharts绘制6种不同的图表的示例代码
  • Docker 部署 Vaultwarden
  • π0及π0_fast的源码解析——一个模型控制7种机械臂:对开源VLA sota之π0源码的全面分析,含我司微调π0的部分实践
  • 【使用hexo模板创建个人博客网站】
  • 点云数据处理--splat转3dtiles
  • Vue23Web 基礎性拉滿的面試題(2025版)還沒更新完...
  • RSA的理解运用与Pycharm组装Cryptodome库
  • Networking Based ISAC Hardware Testbed and Performance Evaluation
  • vite:初学 p5.js demo 画圆圈
  • 大语言模型学习--向量数据库基础知识
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_init_cycle 函数
  • PyTorch中的线性变换:nn.Parameter VS nn.Linear
  • C#使用winform实现简单的梯形图指令编译和执行,带编译器和虚拟机代码
  • Wpf-ReactiveUI-Usercontrol与主界面交互
  • C语言实现贪吃蛇
  • 高考數學。。。
  • 200W数据需要去重,如何优化?