23. AI-大语言模型-DeepSeek简介

文章目录

前言
一、DeepSeek是什么
- 1. 简介
- 2. 产品版本
- - 1. 类型
  - 2. 版本
  - 3. 参数规模与模型能力
- 3. 特征
- 4. 三种访问方式
- - 1. 网页端和APP
  - 2. DeepSeek API
二、DeepSeek可以做什么
- 1. 应用场景
- 2. 文本生成
- - 1. 文本创作
  - 2. 摘要与改写
  - 3. 结构化生成
- 3. 自然语言理解与分析
- - 1. 语义分析
  - 2. 文本分类
  - 3. 知识推理
- 4. 编程与代码相关
- - 1. 代码生成
  - 2. 代码调试
  - 3. 技术文档处理
- 5. 常规绘图
- - 1. SVG矢量图
  - 2. Mermaid图表
  - 3. React图表
三、DeepSeek从入门到精通
- 2. 快思慢想
- 3. 提示语策略差异
- 4. 关键原则
- 5. 从“下达指令”到“表达需求”
- 6. 任务需求与提示语策略
- 7. 如何向AI表达需求
- 8. 什么是提示语
- 9. 提示语类型
- 10. 提示语示例
- 11. 掌握提示语设计：AIGC时代的必备技能
- 12. 提示语的DNA：解构强大提示语的基本元素
- 13. 调教AI的秘籍：让你的提示语效果倍增的关键策略
四、DeepSeek 赋能职场应用
- 1. 三种模式
- 2. 两种模式对比
- 3. 如何提问？两种模型的提示语差异
- 4. 如何使用 DeepSeek 制作可视化图表？
- 5. 如何使用 DeepSeek 制作PPT？
- - 1. DeepSeek+Kimi
- 6. 如何使用 DeepSeek 设计海报？
- 7. 如何使用 DeepSeek 生成视频？
- 8. 如何使用 DeepSeek 批量生成新媒体文案？
- 9. 如何使用 DeepSeek 开发AI应用？
- 10. 如何使用 DeepSeek 进行市场调查？
- 11. 如何使用 DeepSeek 实现人机高效协作？

前言

DeepSeek‌

DeepSeek 在今年春节期间迅速爆红，并凭借强劲的性能，获得了大量开发者的关注，它最大的特点是开源、使用成本低，并且性能不输 ChatGPT。

DS太香了

一、DeepSeek是什么

1. 简介

DeepSeek 是国内一款开源的大模型，主打通用 AI 能力，类似于 OpenAI 的 GPT 系列，目标是打造国产的、强大的、开放的大语言模型。

DeepSeek大模型的研发及开源，0->1，科研成果的重大突破。
DeepSeek大模型的应用，1->100，可以做什么，如何赋能哪些产业，属于国人的擅长领域。可以期待百花齐放。从互联网，到移动互联网，到现在的AI时代，2025AI应用元年，风口已经来了。

LLM（Large Language Model，大语言模型）‌是指使用大量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构，模拟人类的语言认知和生成过程‌。

ai.com 这个域名之前跳转的是 ChatGPT，现在跳到 DeepSeek，可知 DeepSeek 的火爆程度。也从侧面反映了DeepSeek在全球范围内的影响力。

超级产品增长1亿用户用时

2. 产品版本

1. 类型

DeepSeek 主要有以下几个大模型：

DeepSeek R1
DeepSeek V3
DeepSeek Coder V2
DeepSeek VL
DeepSeek V2
DeepSeek Coder
DeepSeek Math
DeepSeek LLM

推理模型

推理模型：指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

例如：DeepSeek-R1、GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

通用模型：适用于大多数任务，一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。

例如：DeepSeek-V3、GPT-3、GPT-4（OpenAI）、BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。

维度	推理模型	通用模型
优势领域	数学推导、逻辑分析、代码生成、复杂问题拆解	文本生成、多轮对话、开放性问答
劣势领域	发散性任务（如诗歌创作）	需要严格逻辑链的任务（如数学证明）
性能本质	专精于逻辑密度高的任务	擅长多样性高的任务
强弱判断	并非全面更强，仅在其训练目标领域显著优于通用模型	通用场景更灵活，但专项任务需依赖提示语补偿能力

2. 版本

以 DeepSeek-R1 为例，满血版本为：671B，性能最强，也就是官网部署的版本。还有几个蒸馏版本：

DS-R1版本

3. 参数规模与模型能力

参数规模

模型规格后面的数字代表模型的参数规模，表示模型的复杂度和学习能力，参数规模越大，通常理解和生成能力越强。

B 则是指 Billion 十亿

1.5B 有 15 亿个参数；
671B 是 6710 亿个参数。

参数规模与模型能力成正比，一般来说：

参数规模越大：代表模型越聪明，对复杂问题的处理能力越强，生成内容的质量越高，但对算力和硬件资源的要求也越高。
参数规模越小：代表模型越轻量化，对算力和硬件的要求越低，适合资源受限的设备。

模型能力

DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求，从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中，我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的，才是最好的！

1.5B - 14B：轻量级模型，适合基础任务（文本生成、简单问答）。
32B - 70B：中等规模，平衡性能与资源消耗，适合复杂任务（逻辑推理、代码生成）。

本地部署后跑的就是本地算力了，叠加知识库，可以实现内部的资料对话式查询，资料不上网，更加安全可靠。不同模型需要的硬件配置，以下可供参考：

1.5B：CPU最低4核，内存8GB+，硬盘3GB+存储空间，显卡非必需，适合低资源设备部署等场景。
7B：CPU 8核以上，内存16GB+，硬盘8GB+，显卡8GB+显存，可用于本地开发测试等场景。
8B：硬件需求与7B相近略高，适合需更高精度的轻量级任务。
14B：CPU 12核以上，内存32GB+，硬盘15GB+，显卡16GB+显存，可用于企业级复杂任务等场景。
32B：CPU 16核以上，内存64GB+，硬盘30GB+，显卡24GB+显存，适合高精度专业领域任务等场景。
70B：CPU 32核以上，内存128GB+，硬盘70GB+，显卡需多卡并行，适合科研机构等进行高复杂度生成任务等场景。

3. 特征

DeepSeek 之所以能迅速崛起，主要是因为它在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts（MoE，混合专家模型），这一架构让它可以在计算资源相对有限的情况下，仍然保持高性能，实现了它对 OpenAI 的弯道超车。

混合专家模型（MoE，Mixture of experts）是一种机器学习方法，它将人工智能（AI）模型划分为单独的子网络（或专家 experts），每个子网络专攻输入数据的一个子集，以共同执行任务。
核心思想是，不是所有参数都在每次推理时被激活，而是只有一部分专家在工作，这样可以减少计算成本，同时提高模型的推理效率。也就是说，它通过选择性地激活特定任务所需的特定专家来实现这种效率，而不是为每个任务激活整个神经网络。

相比于 OpenAI 的 GPT-4，DeepSeek 的 MoE 版本可以用更少的计算量，获得接近 GPT-4 级别的性能。与OpenAI-o1的性能对比：

模型对比
DeepSeek 是国产大模型，那么，它和 GPT-4 的差距在哪里？

对比项	DeepSeek	GPT-4
是否开源	✅ 开源	❌ 闭源
中文优化	✅ 很强	✅ 强
代码能力	✅ 强	✅ 更强
推理速度	✅ 轻量级 MoE 优势	❌ 需要更大计算资源
本地部署	✅ 可以	❌ 不能
使用限制	✅ 自由可商用	❌ 需要 API 访问

DeepSeek 的最大优势是开源和 中文优化好，比 GPT-4 更适合本地部署和企业使用，所以它特别适合 中文 AI 应用、代码辅助开发等场景。

4. 三种访问方式

DeepSeek的R1和V3模型现已在网页端、APP，以及API上全面推出，为用户提供多样化的访问途径。这三种访问方式各具特色，适用于不同的使用场景。

DeepSeek的网页端是一个用户友好的在线平台，用户只需通过浏览器即可轻松访问。该平台设计直观，即使是非技术背景的用户也能迅速上手，享受DeepSeek带来的便捷服务。

专为移动设备打造的DeepSeek APP，则让用户体验更加便捷和个性化。用户可以在智能手机或平板电脑上安装并使用该APP，随时随地访问DeepSeek平台，享受与网页端相似，但更加贴合移动场景的功能和服务。

同时，DeepSeek还为开发者提供了强大的API工具。通过API，开发者可以轻松地将DeepSeek平台的功能集成到自己的应用程序或系统中，实现与平台的无缝对接。利用DeepSeek提供的各种算法和模型，开发者可以高效地处理数据、生成对话、实现其他创新功能。

DeepSeek的API也是大语言模型（LLM）的三板斧，
CoT（思维链）、Prompt Engineering（提示工程）、Function Calling（函数调用）。

1. 网页端和APP

开启DeepSeek网页端对话，只需访问官网并点击“开始对话”按钮，登录后即可与AI进行即时交流。

访问网址

DS网页端
2. 开启DeepSeek APP的访问，只需在智能手机或平板电脑上下载安装后，打开应用并登录即可。

DS移动端
3. 深度思考（R1）和联网搜索是什么？

DeepSeek的深度思考（R1）和联网搜索是其两大核心功能，这两大功能相辅相成，共同构筑了其强大的功能框架。

深度推理（R1）：R1模型擅长逻辑推理和复杂问题解答，能够处理需要深度思考的任务。
联网搜索：允许DeepSeek实时访问互联网上的信息，从而为用户提供最新、最准确的内容。

2. DeepSeek API

DeepSeek的API是什么？

DeepSeek的API是为开发者提供的一种工具，它允许开发者将DeepSeek提供的能力集成到自己的应用程序中。

调用API，需要提供如下三个请求参数。

api_key: "<DeepSeek API Key>"
base_url: "https://api.deepseek.com"
model: ""

DeepSeek的API能力有哪些？

DeepSeek API支持调用其平台上的多种模型，如深度思考（R1）和智能对话（V3）等，并具备多轮对话能力和对话生成与理解功能，为开发者提供强大的智能对话与交互体验。

推理模型（deepseek-reasoner）：

在输出最终回答之前，模型会先输出一段思维链内容，以提升最终答案的准确性。DeepSeek的 API 向用户开放 deepseek-reasoner 思维链的内容，以供用户查看、展示、蒸馏使用。

在每一轮对话过程中，模型会输出思维链内容（reasoning_content）和最终回答（content）。在下一轮对话中，之前轮输出的思维链内容不会被拼接到上下文中，如下图所示：

API推理模型输出

多轮对话（Multi-round Conversation）：

DeepSeek多轮对话API 是一个“无状态” API，即服务端不记录用户请求的上下文，用户在每次请求时，需将之前所有对话历史拼接好后，传递给对话 API。多轮对话的本质就是提示工程 Prompt Engineering 。

Function Calling：

Function Calling 让模型能够调用外部工具，来增强自身能力。DeepSeek当前版本模型 Function Calling 功能效果不稳定，会出现循环调用、空回复的情况。DeepSeek正在积极修复中，预计将在下一个版本中得到修复。

二、DeepSeek可以做什么

1. 应用场景

直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。

DS能力图谱

2. 文本生成

1. 文本创作

文章/故事/诗歌写作
营销文案、广告语生成
社交媒体内容（如推文、帖子）
剧本或对话设计

2. 摘要与改写

长文本摘要（论文、报告）
文本简化（降低复杂度）
多语言翻译与本地化

3. 结构化生成

表格、列表生成（如日程安排、菜谱）
代码注释、文档撰写

3. 自然语言理解与分析

1. 语义分析

语义解析
情感分析（评论、反馈）
意图识别（客服对话、用户查询）
实体提取（人名、地点、事件）

2. 文本分类

文本分类
主题标签生成（如新闻分类）
垃圾内容检测

3. 知识推理

知识推理
逻辑问题解答（数学、常识推理）
因果分析（事件关联性）

4. 编程与代码相关

1. 代码生成

根据需求生成代码片段（Python、JavaScript）
自动补全与注释生成

2. 代码调试

错误分析与修复建议
代码性能优化提示

3. 技术文档处理

API文档生成
代码库解释与示例生成

5. 常规绘图

1. SVG矢量图

基础图形
图标
简单插图
流程图
组织架构图

2. Mermaid图表

流程图
时序图
类图
状态图
实体关系图
思维导图

3. React图表

折线图
柱状图
饼图
散点图
雷达图
组合图表

三、DeepSeek从入门到精通

‌当人人都会用AI时，你如何用得更好更出彩？‌

2. 快思慢想

效能兼顾，全局视野

维度	概率预测（快速反应模型，如ChatGPT 4o）	链式推理(慢速思考模型，如OpenAI o1)
性能表现	响应速度快，算力成本低	慢速思考，算力成本高
运算原理	基于概率预测，通过大量数据训练来快速预测可能的答案	基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案
决策能力	依赖预设算法和规则进行决策	能够自主分析情况，实时做出决策
创造力	限于模式识别和优化，缺乏真正的创新能力	能够生成新的创意和解决方案，具备创新能力
人机互动能力	按照预设脚本响应，较难理解人类情感和意图	更自然地与人互动，理解复杂情感和意图
问题解决能力	擅长解决结构化和定义明确的问题	能够处理多维度和非结构化问题，提供创造性的解决方案
伦理问题	作为受控工具，几乎没有伦理问题	引发自主性和控制问题的伦理讨论

CoT链式思维的出现将大模型分为了两类：“概率预测（快速反应）”模型和“链式推理（慢速思考）”模型。前者适合快速反馈，处理即时任务；后者通过推理解决复杂问题。了解它们的差异有助于根据任务需求选择合适的模型，实现最佳效果

3. 提示语策略差异

推理模型

提示语更简洁，只需明确任务目标和需求（因其已内化推理逻辑）。
无需逐步指导，模型自动生成结构化推理过程（若强行拆解步骤，反而可能限制其能力）。

通用模型

需显式引导推理步骤（如通过CoT提示），否则可能跳过关键逻辑。
依赖提示语补偿能力短板（如要求分步思考、提供示例）。

4. 关键原则

模型选择

优先根据任务类型而非模型热度选择（如数学任务选推理模型，创意任务选通用模型）。

提示语设计

推理模型：简洁指令，聚焦目标，信任其内化能力。（“要什么直接说”）。
通用模型：结构化、补偿性引导（“缺什么补什么”）。

避免误区

不要对推理模型使用“启发式”提示（如角色扮演），可能干扰其逻辑主线。
不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）。

5. 从“下达指令”到“表达需求”

策略类型	定义与目标	适用场景	示例（推理模型适用）	优势与风险
指令驱动	直接给出明确步骤或格式要求	简单任务、需快速执行	“用Python编写快速排序函数，输出需包含注释。”	结果精准高效 ❌ 限制模型自主优化空间
需求导向	描述问题背景与目标，由模型规划解决路径	复杂问题、需模型自主推理	“我需要优化用户登录流程，请分析当前瓶颈并提出3种方案。”	激发模型深层推理 ❌ 需清晰定义需求边界
混合模式	结合需求描述与关键约束条件	平衡灵活性与可控性	“设计一个杭州三日游计划，要求包含西湖和灵隐寺，且预算控制在2000元内。”	兼顾目标与细节 ❌ 需避免过度约束
启发式提问	通过提问引导模型主动思考（如“为什么”“如何”）	探索性问题、需模型解释逻辑	“为什么选择梯度下降法解决此优化问题？请对比其他算法。”	触发模型自解释能力 ❌ 可能偏离核心目标

6. 任务需求与提示语策略

任务类型	适用模型	提示语侧重点	示例（有效提示）	需避免的提示策略
数学证明	推理模型	直接提问，无需分步引导	“证明勾股定理”	冗余拆解（如“先画图，再列公式”）
数学证明	通用模型	显式要求分步思考，提供示例	“请分三步推导勾股定理，参考：1.画直角三角形…”	直接提问（易跳过关键步骤）
创意写作	推理模型	鼓励发散性，设定角色/风格	“以海明威的风格写一个冒险故事”	过度约束逻辑（如“按时间顺序列出”）
创意写作	通用模型	需明确约束目标，避免自由发挥	“写一个包含‘量子’和‘沙漠’ 的短篇小说，不超过200字”	开放式指令（如“自由创作”）
代码生成	推理模型	简洁需求，信任模型逻辑	“用Python实现快速排序”	分步指导（如“先写递归函数”）
代码生成	通用模型	细化步骤，明确输入输出格式	“先解释快速排序原理，再写出代码并测试示例”	模糊需求（如“写个排序代码”）
多轮对话	通用模型	自然交互，无需结构化指令	“你觉得人工智能的未来会怎样？”	强制逻辑链条（如“分三点回答”）
多轮对话	推理模型	需明确对话目标，避免开放发散	“从技术、伦理、经济三方面分析 AI的未来”	情感化提问（如“你害怕AI吗？”）
逻辑分析	推理模型	直接抛出复杂问题	“分析‘电车难题’中的功利主义与道德主义冲突”	添加主观引导（如“你认为哪种对？”）
逻辑分析	通用模型	需拆分问题，逐步追问	“先解释电车难题的定义，再对比两种伦理观的差异”	一次性提问复杂逻辑

7. 如何向AI表达需求

需求类型	特点	需求表达公式	推理模型适配策略	通用模型适配策略
1.决策需求	需权衡选项、评估风险、选择最优解	目标 + 选项 + 评估标准	要求逻辑推演和量化分析	直接建议，依赖模型经验归纳
2.分析需求	需深度理解数据/信息、发现模式或因果关系	问题 + 数据/信息 + 分析方法	触发因果链推导与假设验证	表层总结或分类
3.创造性需求	需生成新颖内容（文本/ 设计/方案）	主题 + 风格/约束 + 创新方向	结合逻辑框架生成结构化创意	自由发散，依赖示例引导
4.验证需求	需检查逻辑自洽性、数据可靠性或方案可行性	结论/方案 + 验证方法 + 风险点	自主设计验证路径并排查矛盾	简单确认，缺乏深度推演
5.执行需求	需完成具体操作（代码/ 计算/流程）	任务 + 步骤约束 + 输出格式	自主优化步骤，兼顾效率与正确性	严格按指令执行，无自主优化

8. 什么是提示语

提示语（Prompt）是用户输入给AI系统的指令或信息，用于引导AI生成特定的输出或执行特定的任务。简单来说，提示语就是我们与AI“对话”时所使用的语言，它可以是一个简单的问题，一段详细的指令，也可以是一个复杂的任务描述。

提示语的基本结构包括指令、上下文和期望

指令（Instruction)：这是提示语的核心，明确告诉AI你希望
它执行什么任务。
上下文（Context)：为AI提供背景信息，帮助它更准确地理
解和执行任务。
期望（Expectation)：明确或隐含地表达你对AI输出的要求
和预期。

9. 提示语类型

指令型提示语：直接告诉AI需要执行的任务。
问答型提示语：向AI提出问题，期望得到相应的
答案。
角色扮演型提示语：要求AI扮演特定角色，模拟
特定场景。
创意型提示语：引导AI进行创意写作或内容生成。
分析型提示语：要求AI对给定信息进行分析和推
理。
多模态提示语：结合文本、图像等多种形式的
输入。

10. 提示语示例

11. 掌握提示语设计：AIGC时代的必备技能

12. 提示语的DNA：解构强大提示语的基本元素

13. 调教AI的秘籍：让你的提示语效果倍增的关键策略

四、DeepSeek 赋能职场应用

‌从提示语技巧到多场景应用‌

1. 三种模式

基础模型（V3）：通用模型（2024.12），高效便捷，适用于绝大多数任务，“规范性”任务
深度思考（R1）：推理模型，复杂推理和深度分析任务，如数理逻辑推理和编程代码，“开放性”任务
联网搜索：RAG（检索增强生成），知识库更新至2024年7月

2. 两种模式对比

3. 如何提问？两种模型的提示语差异

基础模型（V3）：“过程-结果”清晰（指令）
深度思考（R1）：目标清晰，结果可以模糊（推理）

RTGO提示语结构
CO-STAR提示语框架
DeepSeek R1提示语技巧（开放性）

4. 如何使用 DeepSeek 制作可视化图表？

5. 如何使用 DeepSeek 制作PPT？

1. DeepSeek+Kimi

DeepSeek搞定ppt文案

我们用DeepSeek来生成ppt文稿的提纲文案，比如，我要做一个有关人工智能发展的报告，帮我做一个提纲。
DeepSeek联网思考后，生成一个ppt的大纲。
等待几分钟，整个ppt的框架就好了，下面copy到kimi中。

Kimi搞定ppt

在Kimi中有一个关于ppt制作的神器，ppt助手。
我们点进去，把用DeepSeek生成的ppt提纲输入进去。
输入完毕后，Kimi会帮我们自动再次排版，最后点击“一键生成PPT‘，选择一个模板。
生成ppt。
生成完毕后，点击”去编辑“，点击”下载“，就可以把ppt下载到本地了。

至此，这个ppt就生成好了。

6. 如何使用 DeepSeek 设计海报？

7. 如何使用 DeepSeek 生成视频？

8. 如何使用 DeepSeek 批量生成新媒体文案？

9. 如何使用 DeepSeek 开发AI应用？

10. 如何使用 DeepSeek 进行市场调查？

11. 如何使用 DeepSeek 实现人机高效协作？

基本操作技巧：提示词、追问逻辑、插件使用

人机协作意识：优势不足、取长补短、选择性采纳

能动意识：千人千面、洞察能力、思维深度

边界意识：学术伦理、新闻伦理、伦理规范

本文的引用仅限自我学习如有侵权，请联系作者删除。
参考知识
DeepSeek 是什么？｜扫盲贴
清华大学第一弹：DeepSeek从入门到精通
一文搞懂DeepSeek - DeepSeek的三种访问方式