基本信息
文件名称:我们该如何看待DeepSeek——what,+how,+why,+and+next?.pptx
文件大小:7.2 MB
总页数:82 页
更新时间:2025-03-04
总字数:约6.18千字
文档摘要

我们该如何看待DeepSeek

——what,how,why,andnext?

声明:1.仅代表个人观点,不代表任何机构立场;2.面向不具备AI专业知识背景的群体,为保持易懂性简化了很多技术细节,且不求涵盖所有方面;3.主要以R1模型视角讲解,其他模型在第三大块有简要介绍;4.受个人研究领域及认知水平所限,难免有疏漏或偏颇之处,欢迎批评指正。;

nWhatisit:DeepSeek是什么

o从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?

oDeepSeek基本概念(用户角度)

nHowtouseit:我能用DeepSeek干什么

o以小见大,掌握思维方法

o正确理解,打开广阔天地

nWhyitworks:DeepSeek背后的原理

oTransformer——大模型基础

oDeepSeek模型的发展历程

nNext:下一步要关注什么

o生态的爆发就在眼前,整个链条上哪些方面值得关注;

nWhatisit:DeepSeek是什么

o从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?

oDeepSeek基本概念(用户角度)

nHowtouseit:我能用DeepSeek干什么

o以小见大,掌握思维方法

o正确理解,打开广阔天地

nWhyitworks:DeepSeek背后的原理

oTransformer——大模型基础

oDeepSeek模型的发展历程

nNext:下一步要关注什么

o生态的爆发就在眼前,整个链条上哪些方面值得关注;

从ChatGPT开始;;

n生成式人工智能(AIGC)和大语言模型(LLM,也简称大模型);

ChatGPT真正做的事:文字接龙;

输出又送回输入,不断迭代接龙

输出又送回输入,不断迭代接龙;

ChatGPT真正做的事:文字接龙;

n这就是为啥LLM经常出现“幻觉”;

LLM怎么学习文字接龙?;;

从ChatGPT到OpenAIO系列;

n2024年9月12日,OpenAI官方宣布了OpenAIo1推理大模型。

nOpenAI宣称OpenAIo1大模型推理(Reasoning)能力相比较当前的大语言模型(GPT-4o)有了大幅提升。由于OpenAIo1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始称这里有思考过程的大模型为推理大模型。;

普通模型和推理模型的对比15

/p/a-visual-guide-to-reasoning-llms;

什么是推理模型;;

推理模型和非推理模型的区别;

n数学、代码、逻辑等领域优势明显

美国数学邀请赛编程竞赛平台生物物理化学难题数据集;

DeepSeekR1厉害在哪里

此处仅介绍一部分,DeepSeek带来的更多的意义和启示在最后一章;;

网页聊天免费;;;

量变带来质变!

以前AI是“菁英游戏”,现在AI可以是“人民战争”!我国是这个量变(和即将到来的质变)的驱动源、主导者和聚集地!;

DeepSeek基本概念(用户角度)

更详细的原理在第三部分介绍;;

n模型的回答全部来自训练时的数据

n数据难以及时更新

o以DeepSeek为例,其训练数据为24年7月之前;

n模型的回答来自训练时的数据+外部数据

n外部数据可以及时更新

o比如上传的文件(知识库)或网上搜索的资料(联网搜索);

Prompt:用户一次塞给大模型的输入内容

Token:大模型输入输出的最小单位,约等于单词

上下文长度:当前prompt加上前后对话记录的长度,会一次塞给大模型作为输入

训练:“制作”大模型的过程,将海量的训练数据知识内嵌到模型中

推理(inference):“运行”大模型产生输出内容的过程

推理(reasoning):一种模型产生输出的方式,将一个大问题拆成多步,好像人类的步步推演;

nWhatisit:DeepSeek是什么

o从ChatGPT到DeepSeek-R1,TA到底厉害在哪里?

oDeepSeek基本概念(用户角度)

nHowtouseit:我能用DeepSeek干什么

o以小见大,掌握思维方法

o正确理解,打开广阔天地

nWhyitworks:DeepSeek背后的原理