LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)
目录
- 一些基本概念:
- deepseek-r1-zero
- deepseek-R1
- deepseek-R1 distill model:
DeepSeek官网:https://www.deepseek.com/
一些基本概念:
- post-training:旨在优化预训练模型的特定能力,包括任务适配性、安全性、对齐人类偏好等,使其更适用于实际场景。主要分为三个阶段:微调(Finetune)、对齐(Alignment)、评估(Evaluation);
- test-time compute(推理时计算):在推理阶段(即大语言模型生成最终结果的阶段)投入更多计算资源,而非集中在预训练或后训练阶段。(推理过程的加入,使该现象更明显);
- rejection sampling(拒绝采样):
- 拒绝采样定义:
如图所示,p ( x ) 是我们希望采样的分布,q ( x ) 是我们提议的分布(proposal distribution),q ( x ) 分布比较简单,令kq(x)>p(x),我们首先在k q ( x ) 中按照直接采样的方法采样粒子,接下来判断这个粒子落在图中什么区域,对于落在蓝线以外的粒子予以拒绝,落在蓝线下的粒子接受,最终得到符合p(x)的N个粒子。
———————————————— - 拒绝接受采样的基本步骤:
①生成服从q(x)的样本→ xi
②生成服从均匀分布U(0,1)的样本→ui
③当q ( x i ) ⋅ u i < p ( x i ) ,也就是二维点落在蓝线以下(见附件),此时接受X k = x i
④最终得到的Xk为服从p(x)的样本。
- 拒绝采样定义:
deepseek-r1-zero
基于DeepSeek-R1报告梳理的deepseek-r1-zero模型实现过程如下:
deepseek-R1
基于DeepSeek-R1报告梳理的deepseek-R1模型实现过程如下:
- 整体以DeepSeek-V3模型为基础,经过两个SFT阶段、两个RL阶段;
- deepseek GitHub:https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file;
deepseek-R1 distill model:
模型蒸馏技术还需要进一步备注。
(1)DeepSeek蒸馏模型的基模型:Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-
14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct.
(2)使用deepseek-R1的800k SFT数据进行微调,没有经过RL过程。