当前位置：首页 > news >正文

DeepSeek大模型简介

news 2025/2/23 6:28:55

文章目录

一、大模型的演变
二、大模型解析
- 2.1 模型的简介
- 2.2 提示语简介
三、DeepSeek使用
- 3.1 DeepSeek 简介
- 3.2 DeepSeek推理提示词技巧
- 3.3 Deepseek官网使用
四、 DeepSeek部署
- 4.1 DeepSeek服务器
- 4.2 第三方平台
- 4.3 本地部署
- 4.4 满血版
- 附离线安装
五、DeepSeek-R1训练过程和原理
- 5.1 DeepSeek核心创新
- 5.2 DeepSeek训练过程
六、DeepSeek接入WPS

DeepSeek 特别火，尽管此前没有全身心投入到 AI 学习中，但也被这股热潮卷入。云计算作为幕后支撑力量，在 AI 发展中发挥着至关重要的作用，云计算也会是隐形金矿！仅对相关信息进行了初步了解，尚未对 AI 的核心内容进行深入探究。

一、大模型的演变

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

在这里插入图片描述

二、大模型解析

2.1 模型的简介

推理模型
推理模型旨在通过逻辑推理、规则应用等方式从已知信息中得出结论。在我们传统的大语言模型基础上具有强化推理，逻辑分析，还要决策能力的模型。常见类型包括：

基于规则的推理：使用预定义规则进行推理，如专家系统。逻辑推理：通过逻辑规则（如命题逻辑）推导结论。
概率推理：在不确定性下进行推理，常用方法包括贝叶斯网络。

在这里插入图片描述

非推理模型
非推理模型不依赖显式推理过程，而是通过数据驱动的方式学习模式和关系。或称谓预测模型，预训练模型，通用模型。常见类型包括：

机器学习模型：如决策树、支持向量机、神经网络等。
统计模型：如线性回归、逻辑回归等。
深度学习模型：如卷积神经网络（CNN）、循环神经网络（RNN）等。

2.2 提示语简介

在这里插入图片描述

三、DeepSeek使用

3.1 DeepSeek 简介

DeepSeek 作为一个开源项目，其高明之处在于通过开源策略实现了技术推广、生态建设和商业化的平衡。以下是其开源策略的核心优势：

技术推广与品牌建设快速传播：通过 MIT 协议，DeepSeek 可以快速被广泛使用和传播，提升品牌知名度.吸引开发者：开源吸引了大量开发者参与，形成社区，推动技术创新和迭代。

生态建设插件和扩展：开源 DeepSeek 可以吸引开发者为其开发插件、工具或扩展，丰富生态。数据共享：通过开源，吸引用户贡献数据或模型，进一步提升 DeepSeek 的性能和适用性。

商业化潜力增值服务：DeepSeek 可以通过提供技术支持、定制开发或云服务实现盈利。双许可证模式：在开源版本的基础上，提供企业版或高级版，满足企业用户的需求。

降低开发成本社区贡献：通过开源，吸引社区开发者贡献代码和优化，降低开发和维护成本。快速迭代：社区反馈和贡献可以帮助 DeepSeek 快速迭代和改进。

建立行业标准技术影响力：通过开源，DeepSeek 可以成为行业标准或参考实现，增强技术影响力。合作机会：开源项目更容易吸引企业合作，形成商业伙伴关系

在这里插入图片描述

在深度学习领域，满血版模型和蒸馏版模型是两种常见的模型形式，分别针对不同的应用场景和需求.

在这里插入图片描述

3.2 DeepSeek推理提示词技巧

在这里插入图片描述

3.3 Deepseek官网使用

DeepSeek 支持通过多种方式使用，包括 Web、App 和 API 等

在这里插入图片描述

https://chat.deepseek.com/
在这里插入图片描述

第三方平台

https://siliconflow.cn/zh-cn/models
https://metaso.cn/
https://console.bce.baidu.com/gianfan/modelcenter/model/buildln/list
在这里插入图片描述
https://github.com/deepseek-ai

四、 DeepSeek部署

4.1 DeepSeek服务器

集成客户端下载:将 DeepSeek 大模型能力轻松接入各类软件。访问 DeepSeek 开放平台来获取您的 API key。

https://github.com/deepseek-ai/awesome-deepseek-integration/blob/main/README_cn.md
在这里插入图片描述
Cherry Studio 一款为创造者而生的桌面版 AI 助手.或chatbox

在这里插入图片描述

4.2 第三方平台

在这里插入图片描述
https://siliconflow.cn/zh-cn/models
https://metaso.cn/

4.3 本地部署

在这里插入图片描述

8B：指的是模型的规模，这里的 B 代表十亿，8B 表示该模型具有 80 亿的参数数量。模型参数数量通常与模型的性能和表达能力相关。
Q4：表示模型的量化方式。量化是一种将模型参数从较高精度的数据类型转换为较低精度的数据类型的技术，Q4 通常意味着模型参数被量化为 4 位的数据类型。通过量化，可以在几乎不损失模型性能的情况下，减小模型文件的大小，降低对硬件资源的需求，提高模型的推理速度，使模型能够在资源受限的设备上更高效地运行。
在这里插入图片描述
下载ollama
Ollama：
是一个开源的本地化工具，用于在本地运行大型语言模型（如 Llama、Mistral 等），适合开发者或需要私有化部署的用户。
官网地址：https://ollama.ai

安装完成后验证

olama -v

在这里插入图片描述

利用Ollama 安装R1-1.5B

ollama run deepseek-r1:1.5b

在这里插入图片描述

4.4 满血版

在这里插入图片描述

附离线安装

因研发云电脑未连接互联网。下载安装软件
在这里插入图片描述

（一）下载LM Studio

LM Studio，这是一款用于本地运行大型语言模型的桌面应用程序。能兼容来自 Huggingface 等资源库的大量模型，如
llama2、mpt、starcoder 等及其衍生变体。

官网：https://lmstudio.ai/
在这里插入图片描述
下载后安装设置

（二）下载模型

gguf 是一种用于存储语言模型数据的文件格式，全称为 Generalized GPT-2 Universal Format 旨在提供一种统一的格式，使语言模型能够在不同的操作系统（如Windows、Mac、Linux）和硬件架构上轻松运行，确保模型可以在各种环境中无缝部署和使用，不受特定平台的限制。
DeepSeek 的 gguf 格式模型一般不在其官网直接下载，而是可以在 Hugging Face，魔搭社区等平台下载

魔搭社区：https://www.modelscope.cn/home
HF-mirror：https://hf-mirror.com/
Hugging Face ：https://huggingface.co/
在这里插入图片描述
或魔搭社区选择（因硬件资源，本次选择deepseek r1-7b）

这里选择
（三）lmstudio加载模型

重点注意下
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
完成测试.
提示词：主题+需求

五、DeepSeek-R1训练过程和原理

5.1 DeepSeek核心创新

在这里插入图片描述
DeepSeek-R1-Zero 是通过纯强化学习训练的模型，无需监督学习的预训练步骤，直接从基础模型（DeepSeek-V3-Base）出发，通过强化学习来提升推理能力，证明了无需大量人工标注数据和监督学习，仅靠强化学习就能显著提升大模型推理能力，为大模型训练提供了新的路径。

算法创新：提出了改进的强化学习算法 GRPO（Group Relative Policy Optimization），通过分组计算优势函数，避免使用独立的 Critic 模型，有效降低了训练成本，使得大规模强化学习训练更加可行。
在这里插入图片描述

5.2 DeepSeek训练过程

在这里插入图片描述

DeepSeek-R1 的训练过程主要有以下四个阶段
冷启动微调（Cold Start）：收集数千条高质量长链思维（CoT）数据，这些数据需经过格式规范化和多语言对齐处理。然后用这些数据对 DeepSeek-V3-Base 基模型进行监督微调（SFT），使模型输出格式规范、可读性强，为后续强化学习提供稳定的初始策略。
在这里插入图片描述

面向推理的强化学习（Reasoning-Oriented RL）：将冷启动 SFT 后的检查点输入模型，采用分组相对策略优化（GRPO）算法，通过规则奖励如答案准确性、格式一致性来驱动模型优化。同时引入语言一致性奖励，减少多语言混合现象，将准确性奖励与语言一致性奖励相加形成最终奖励函数，增强模型在数学、代码、科学等领域的复杂推理性能。
在这里插入图片描述

拒绝采样与监督微调（Rejection Sampling & SFT）：从第二阶段的 RL 检查点通过拒绝采样生成约 60 万条推理数据，筛选正确的推理轨迹，并结合生成式奖励模型判断质量。同时复用 DeepSeek-V3 的 SFT 数据集中的写作、翻译等非推理数据约 20 万条，形成总计约 80 万样本的混合数据集，对模型进行两轮监督微调，平衡推理与非推理能力。
在这里插入图片描述

全场景强化学习（RL for All Scenarios）：把第三阶段 SFT 后的检查点输入模型，对于推理任务沿用规则奖励，通用任务使用神经奖励模型评估人类偏好，如最终答案的实用性、全响应的无害性。结合不同场景的提示数据，如用户查询、角色扮演等进行多提示分布训练，在收敛的检查点上进一步优化，最终得到 DeepSeek-R1 模型，使其兼具推理能力和通用性，提升在开放域问答、长文本理解等任务中的稳健性，与人类偏好对齐。
在这里插入图片描述
总结
----------------------------------------------------------------------------------