当前位置：首页 > news >正文

23. AI-大语言模型-DeepSeek简介

news 2025/2/23 4:12:09

文章目录

前言
一、DeepSeek是什么
- 1. 简介
- 2. 产品版本
- - 1. 类型
  - 2. 版本
  - 3. 参数规模与模型能力
- 3. 特征
- 4. 三种访问方式
- - 1. 网页端和APP
  - 2. DeepSeek API
二、DeepSeek可以做什么
- 1. 应用场景
- 2. 文本生成
- - 1. 文本创作
  - 2. 摘要与改写
  - 3. 结构化生成
- 3. 自然语言理解与分析
- - 1. 语义分析
  - 2. 文本分类
  - 3. 知识推理
- 4. 编程与代码相关
- - 1. 代码生成
  - 2. 代码调试
  - 3. 技术文档处理
- 5. 常规绘图
- - 1. SVG矢量图
  - 2. Mermaid图表
  - 3. React图表
三、DeepSeek 多场景应用
- 1. 三种模式
- 2. 职场应用-PPT
- - 1. DeepSeek+Kimi
- 3. 职场应用-其它
- 4. 开发AI应用？
- 5. 人机高效协作
- 6. 行业赋能

前言

DeepSeek‌

DeepSeek 在今年春节期间迅速爆红，并凭借强劲的性能，获得了大量开发者的关注，它最大的特点是开源、使用成本低，并且性能不输 ChatGPT。

DS太香了

一、DeepSeek是什么

1. 简介

DeepSeek 是国内一款开源的大模型，主打通用 AI 能力，类似于 OpenAI 的 GPT 系列，目标是打造国产的、强大的、开放的大语言模型。

DeepSeek大模型的研发及开源，0->1，科研成果的重大突破。
DeepSeek大模型的应用，1->100，可以做什么，如何赋能哪些产业，属于国人的擅长领域。可以期待百花齐放。从互联网，到移动互联网，到现在的AI时代，2025AI应用元年，风口已经来了。

LLM（Large Language Model，大语言模型）‌是指使用大量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构，模拟人类的语言认知和生成过程‌。

ai.com 这个域名之前跳转的是 ChatGPT，现在跳到 DeepSeek，可知 DeepSeek 的火爆程度。也从侧面反映了DeepSeek在全球范围内的影响力。

超级产品增长1亿用户用时

2. 产品版本

1. 类型

推理模型

推理模型：指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

例如：DeepSeek-R1、OpenAI-o1，在逻辑推理、数学推理和实时问题解决方面表现突出。

通用模型：适用于大多数任务，一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。

例如：DeepSeek-V3、GPT-4o（OpenAI），主要用于语言生成、语言理解、文本分类、翻译等任务。

维度	推理模型	通用模型
优势领域	数学推导、逻辑分析、代码生成、复杂问题拆解	文本生成、创意写作、多轮对话、开放性问答
劣势领域	发散性任务（如诗歌创作）	需要严格逻辑链的任务（如数学证明）
性能本质	专精于逻辑密度高的任务	擅长多样性高的任务
强弱判断	并非全面更强，仅在其训练目标领域显著优于通用模型	通用场景更灵活，但专项任务需依赖提示语补偿能力

2. 版本

DeepSeek 主要有以下几个大模型：

DeepSeek R1
DeepSeek V3
DeepSeek Coder V2
DeepSeek VL
DeepSeek V2
DeepSeek Coder
DeepSeek Math
DeepSeek LLM

以 DeepSeek-R1 为例，满血版本为：671B，性能最强，也就是官网部署的版本。还有几个蒸馏版本：

DS-R1版本

3. 参数规模与模型能力

参数规模

模型规格后面的数字代表模型的参数规模，表示模型的复杂度和学习能力，参数规模越大，通常理解和生成能力越强。

B 则是指 Billion 十亿

1.5B 有 15 亿个参数；
671B 是 6710 亿个参数。

参数规模与模型能力成正比，一般来说：

参数规模越大：代表模型越聪明，对复杂问题的处理能力越强，生成内容的质量越高，但对算力和硬件资源的要求也越高。
参数规模越小：代表模型越轻量化，对算力和硬件的要求越低，适合资源受限的设备。

模型能力

DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求，从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中，我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的，才是最好的！

1.5B - 14B：轻量级模型，适合基础任务（文本生成、简单问答）。
32B - 70B：中等规模，平衡性能与资源消耗，适合复杂任务（逻辑推理、代码生成）。

本地部署后跑的就是本地算力了，叠加知识库，可以实现内部的资料对话式查询，资料不上网，更加安全可靠。不同模型需要的硬件配置，以下可供参考：

1.5B：CPU最低4核，内存8GB+，硬盘3GB+存储空间，显卡非必需，适合低资源设备部署等场景。
7B：CPU 8核以上，内存16GB+，硬盘8GB+，显卡8GB+显存，可用于本地开发测试等场景。
8B：硬件需求与7B相近略高，适合需更高精度的轻量级任务。
14B：CPU 12核以上，内存32GB+，硬盘15GB+，显卡16GB+显存，可用于企业级复杂任务等场景。
32B：CPU 16核以上，内存64GB+，硬盘30GB+，显卡24GB+显存，适合高精度专业领域任务等场景。
70B：CPU 32核以上，内存128GB+，硬盘70GB+，显卡需多卡并行，适合科研机构等进行高复杂度生成任务等场景。

3. 特征

DeepSeek 之所以能迅速崛起，主要是因为它在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts（MoE，混合专家模型），这一架构让它可以在计算资源相对有限的情况下，仍然保持高性能，实现了它对 OpenAI 的弯道超车。

混合专家模型（MoE，Mixture of experts）是一种机器学习方法，它将人工智能（AI）模型划分为单独的子网络（或专家 experts），每个子网络专攻输入数据的一个子集，以共同执行任务。
核心思想是，不是所有参数都在每次推理时被激活，而是只有一部分专家在工作，这样可以减少计算成本，同时提高模型的推理效率。也就是说，它通过选择性地激活特定任务所需的特定专家来实现这种效率，而不是为每个任务激活整个神经网络。

相比于 OpenAI 的 Transformer 模型架构，DeepSeek 的 MoE 版本可以用更少的计算量，获得接近的性能。与OpenAI-o1（mini）的性能对比：

模型对比
DeepSeek 是国产大模型，和 OpenAI的区别在哪里？

对比项	DeepSeek	OpenAI
是否开源	✅ 开源	❌ 闭源
中文优化	✅ 很强	✅ 强
代码能力	✅ 强	✅ 更强
推理速度	✅ 轻量级 MoE 优势	❌ 需要更大计算资源
本地部署	✅ 可以	❌ 不能
使用限制	✅ 自由可商用	❌ 需要 API 访问

DeepSeek 的最大优势是开源和 中文优化好，更适合本地部署和企业使用，所以它特别适合 中文 AI 应用、代码辅助开发等场景。

4. 三种访问方式

DeepSeek的R1和V3模型现已在网页端、APP，以及API上全面推出，为用户提供多样化的访问途径。这三种访问方式各具特色，适用于不同的使用场景。

DeepSeek的网页端是一个用户友好的在线平台，用户只需通过浏览器即可轻松访问。该平台设计直观，即使是非技术背景的用户也能迅速上手，享受DeepSeek带来的便捷服务。

专为移动设备打造的DeepSeek APP，则让用户体验更加便捷和个性化。用户可以在智能手机或平板电脑上安装并使用该APP，随时随地访问DeepSeek平台，享受与网页端相似，但更加贴合移动场景的功能和服务。

同时，DeepSeek还为开发者提供了强大的API工具。通过API，开发者可以轻松地将DeepSeek平台的功能集成到自己的应用程序或系统中，实现与平台的无缝对接。利用DeepSeek提供的各种算法和模型，开发者可以高效地处理数据、生成对话、实现其他创新功能。

DeepSeek的API也是大语言模型（LLM）的三板斧，
CoT（思维链）、Prompt Engineering（提示工程）、Function Calling（函数调用）。

1. 网页端和APP

开启DeepSeek网页端对话，只需访问官网并点击“开始对话”按钮，登录后即可与AI进行即时交流。

访问网址

DS网页端
2. 开启DeepSeek APP的访问，只需在智能手机或平板电脑上下载安装后，打开应用并登录即可。

DS移动端
3. 深度思考（R1）和联网搜索是什么？

DeepSeek的深度思考（R1）和联网搜索是其两大核心功能，这两大功能相辅相成，共同构筑了其强大的功能框架。

深度推理（R1）：R1模型擅长逻辑推理和复杂问题解答，能够处理需要深度思考的任务。
联网搜索：允许DeepSeek实时访问互联网上的信息，从而为用户提供最新、最准确的内容。

2. DeepSeek API

DeepSeek的API是什么？

DeepSeek的API是为开发者提供的一种工具，它允许开发者将DeepSeek提供的能力集成到自己的应用程序中。

调用API，需要提供如下三个请求参数。

api_key: "<DeepSeek API Key>"
base_url: "https://api.deepseek.com"
model: ""

DeepSeek的API能力有哪些？

DeepSeek API支持调用其平台上的多种模型，如深度思考（R1）和智能对话（V3）等，并具备多轮对话能力和对话生成与理解功能，为开发者提供强大的智能对话与交互体验。

二、DeepSeek可以做什么

1. 应用场景

直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。

DS能力图谱

2. 文本生成

1. 文本创作

文章/故事/诗歌写作
营销文案、广告语生成
社交媒体内容（如推文、帖子）
剧本或对话设计

2. 摘要与改写

长文本摘要（论文、报告）
文本简化（降低复杂度）
多语言翻译与本地化

3. 结构化生成

表格、列表生成（如日程安排、菜谱）
代码注释、文档撰写

3. 自然语言理解与分析

1. 语义分析

语义解析
情感分析（评论、反馈）
意图识别（客服对话、用户查询）
实体提取（人名、地点、事件）

2. 文本分类

文本分类
主题标签生成（如新闻分类）
垃圾内容检测

3. 知识推理

知识推理
逻辑问题解答（数学、常识推理）
因果分析（事件关联性）

4. 编程与代码相关

1. 代码生成

根据需求生成代码片段（Python、JavaScript）
自动补全与注释生成

2. 代码调试

错误分析与修复建议
代码性能优化提示

3. 技术文档处理

API文档生成
代码库解释与示例生成

5. 常规绘图

1. SVG矢量图

基础图形
图标
简单插图
流程图
组织架构图

2. Mermaid图表

流程图
时序图
类图
状态图
实体关系图
思维导图

3. React图表

折线图
柱状图
饼图
散点图
雷达图
组合图表

三、DeepSeek 多场景应用

‌从提示语技巧到多场景应用‌

1. 三种模式

基础模型（V3）：通用模型（2024.12），高效便捷，适用于绝大多数任务，“规范性”任务
深度思考（R1）：推理模型，复杂推理和深度分析任务，如数理逻辑推理和编程代码，“开放性”任务
联网搜索：RAG（检索增强生成），知识库更新至2024年7月

2. 职场应用-PPT

1. DeepSeek+Kimi

DeepSeek搞定ppt文案

我们用DeepSeek来生成ppt文稿的提纲文案，比如，我要做一个有关人工智能发展的报告，帮我做一个提纲。
DeepSeek联网思考后，生成一个ppt的大纲。
等待几分钟，整个ppt的框架就好了，下面copy到kimi中。

Kimi搞定ppt

在Kimi中有一个关于ppt制作的神器，ppt助手。
我们点进去，把用DeepSeek生成的ppt提纲输入进去。
输入完毕后，Kimi会帮我们自动再次排版，最后点击“一键生成PPT‘，选择一个模板。
生成ppt。
生成完毕后，点击”去编辑“，点击”下载“，就可以把ppt下载到本地了。

至此，这个ppt就生成好了。

3. 职场应用-其它

可视化图表
设计海报
生成视频
生成新媒体文案
市场调查

4. 开发AI应用？

5. 人机高效协作

基本操作技巧：提示词、追问逻辑、插件使用

人机协作意识：优势不足、取长补短、选择性采纳

能动意识：千人千面、洞察能力、思维深度

边界意识：学术伦理、新闻伦理、伦理规范

6. 行业赋能

行业赋能

本文的引用仅限自我学习如有侵权，请联系作者删除。
参考知识
DeepSeek 是什么？｜扫盲贴
清华大学第一弹：DeepSeek从入门到精通
清华大学第二弹DeepSeek赋能职场
一文搞懂DeepSeek - DeepSeek的三种访问方式

查看全文

http://www.mrgr.cn/news/91928.html

安全运维，等保测试常见解决问题。

DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命

二级公共基础之数据结构与算法篇(七)排序技术

如何在 SpringBoot 项目使用 Redis 的 Pipeline 功能

Java File 类

GCC头文件搜索顺序详解

OpenBMC：BmcWeb实例化App

【Linux】HTTP：Cookie 和 Session 详解

PySide6学习专栏(四):用多线程完成复杂计算任务

在windows下安装windows+Ubuntu16.04双系统(上)

计算机网络之物理层——基于《计算机网络》谢希仁第八版

seacmsv9 SQL注入漏洞（报错注入）

react hook useReducer

LeetCode 501.二叉搜索树中的众数

uniapp h5端和app端使用 turn.js

Spring面试题2

【Linux网络】认识协议（TCP/UDP）、Mac/IP地址和端口号、网络字节序、socket套接字

计算机网络面试知识点总结

CUDA跟Nvidia适配处理

c++:stack与deque