基本信息
文件名称:计算机行业DeepSeek开源六连击,尽显极客风采.docx
文件大小:1.13 MB
总页数:17 页
更新时间:2025-03-15
总字数:约1.23万字
文档摘要

内容目录

内容目录

DeepSeek开源周:更大的吞吐,更低的延迟,更极致的性价比 3

开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器 3

开源周第2天:DeepEP,首个为MoE量身定制的灵活GPU资源控制通信库 5

开源周第3天:DeepGEMM,直面AI计算中最频繁的矩阵乘法 7

开源周第4天:优化并行策略,提升训练速度与资源利用率 8

DualPipe:创新双向流水线并行算法 8

EPLB:优化专家并行架构训练效率 9

深入分析V3/R1模型中的计算与通信重叠机制,便于开发者理解和优化 10

开源周第5天:3FS,DeepSeek数据访问推进器 11

OneMoreThing:DeepSeek-V3/R1推理系统实现大模型推理545%理论成本利润率 13

DeepSeek开源六连击,尽显极客风采 16

投资建议 17

风险提示 17

图表目录

图表目录

图1.FlashMLA示例代码 3

图2.DeepSeek-V2中MLA 4

图3.MoE示意图 5

图4.H800上测试基于纯RDMA低延迟内核 6

图5.标准DeepGEMMvs.MoEDeepGEMM 7

图6.DualPipe调度示例 9

图7.EPLB两层混合专家(MoE)模型示例 9

图8.训练和推理框架的分析数据 11

图9.GraySort基准评估smallpond 12

图10.DeepSeek在线推理系统示意图 14

图11.24小时内用于推理服务的H800节点计数 14

图12.大模型推理理论成本利润率计算过程 15

图13.24小时内DeepSeek-V3/R1推理服务的成本和理论收入 15

图14.FlashMLA中的内联PTX 16

DeepSeek开源周:更大的吞吐,更低的延迟,更极致的性价比

DeepSeek开源周圆满落幕,覆盖全链路技术环节,惊喜连连。在2月21日的开

源周预告之后,DeepSeek如约在2月24日至28日进行了为期5天的“技术轰炸”,

开源了5大代码库,覆盖训练、推理、通信、负载均衡以及数据加速的全链路,惊喜连连。

开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器

发布FlashMLA,高效处理变长序列,优化内存管理,榨取极致性能。DeepSeek在开源周首日发布了FlashMLA技术。FlashMLA是DeepSeek专为英伟达HopperGPU开发的高效MLA(多头潜在注意力,Multi-headLatentAttention,简称MLA)解码内核,特别针对变长序列进行了优化,目前已正式投入使用。当前发布的功能包括对BF16精度的支持(保留关键精度并兼顾速度)和块大小为64的分页KV缓存(优化内存管理)。经实测,在H800SXM5平台(CUDA12.8)上,FlashMLA在内存受限配置下可达到最高3000GB/s的带宽,在计算受限配置下可达到580TFLOPS的峰值性能。团队在致谢部分表示,FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。

图1.FlashMLA示例代码

数据来源:DeepSeek官方,

MLA是DeepSeek在DeepSeek-V2(2024年5月发布)及后续模型中引入的技术,通过低秩近似方法压缩KV缓存。这种方法显著减少了KV缓存的大小,同时保持了模型性能,从而加速了推理过程。KV缓存是Transformer架构中的一种内存机制,用于存储表示对话上下文的数据,以减少不必要的计算开销。与标准注意力机制相比,MLA将每次查询所需的KV缓存减少了约93.3%。FlashMLA通过优化MLA解码和分页KV缓存,能够提高LLM(大语言模型)的推理效率,尤其在H100/H800(英伟达HopperGPU架构)等GPU上发挥出极致性能。

图2.DeepSeek-V2中MLA

数据来源:DeepSeek官方,

注:图中展示了深度学习架构中的几个模块,包括TransformerBlockxL、DeepSeekMoE以及Multi-HeadLatentAttention(MLA)。

TransformerBlockxL(图左):含前馈网络处理非线性变换,两次RMSNor