基本信息
文件名称:陈巍:DeepSeek V3_R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列) - 知乎.pdf
文件大小:6.16 MB
总页数:20 页
更新时间:2025-06-13
总字数:约3.08万字
文档摘要

2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎

首发于

陈巍:大模型技术与产业分析

陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析

(上)(收录于:DeepSeek技术详解系列)

陈巍博士

关注

高级职称(清华/中科院)大模型/存算一体/GPGPU

来自专栏·陈巍:大模型技术与产业分析

1172人赞同了该文章

DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都属于MoE(混合专家)架构,并在开

源世界产生了较大的影响力。特别是2025年1月开源的DeepSeek-R1,模型性能可挑战

OpenAI闭源的o1模型。

随着热度的提升,DeepSeek也被大模型行业之外的各路媒体不断提起,“打破CUDA垄

断”,“挖了NVLink的墙角”,“引发英伟达市值大跌”,“证明大模型算力建设浪

费”,“算力霸权转移”,“国运级的创新”,似乎有用皮衣卡住老黄脖子的架势。

那么,从技术和架构的角度深入最新的V3和R1模型,是否真的有“国运级的创新”,又有哪

些误传?

下面我们从V3与R1的架构分析开始,分层解读DeepSeek的创新。

赞同117245条评论分享喜欢收藏申请转载

/p/212082877431/20

2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎

首发于

陈巍:大模型技术与产业分析

1V3与R1的主要特征

DeepSeek-R1的模型架构来自于V3,甚至可以说R1是具有推理(Reasoning)能力的V3。

下面先分别分析V3和R1的架构特征。

1.1V3/R1架构特征

DeepSeek-V3是一个混合专家(MoE)语言模型,具有6710亿(671B)参数,其中每个Token

(词元)的计算约激活370亿(37B)参数。这个模型参数量与GPT-4大致在同一数量级。

MoE(MixtureofExperts)是组合多个专家模型提升深度学习模型性能和效率的架构。其核

赞同117245条评论分享喜欢收藏申请转载

心思想是通过引入多个专家模型(Experts),每个输入数据只选择和激活其中的一部分专家模

/p/212082877432/20

2025/6/4下午5:17陈巍:DeepSeekV3/R1的架构与训练技术2万字长文分析(上)(收录于:DeepSeek技术详解系列)-知乎

型进行处理,从而减少计算量,提高训练和推理速度。MoE的概念在1991年就已提出,训练不

首发于

陈巍:大模型技术与产业分析

容易收敛是其在大模型领域应用的主要障碍。

MoE模型基本结构示意(来源:网络)

DeepSeek-V3采用了多头潜注意力(MLA,