计算机行业DeepSeek开源六连击，尽显极客风采.docx

基本信息

文件名称：计算机行业DeepSeek开源六连击，尽显极客风采.docx

文件大小：1.13 MB

总页数：17 页

更新时间：2025-03-15

总字数：约1.23万字

文档摘要

内容目录

DeepSeek开源周：更大的吞吐，更低的延迟，更极致的性价比 3

开源周第1天：FlashMLA，专为Hopper打造的高效MLA解码器 3

开源周第2天：DeepEP，首个为MoE量身定制的灵活GPU资源控制通信库 5

开源周第3天：DeepGEMM，直面AI计算中最频繁的矩阵乘法 7

开源周第4天：优化并行策略，提升训练速度与资源利用率 8

DualPipe：创新双向流水线并行算法 8

EPLB：优化专家并行架构训练效率 9

深入分析V3/R1模型中的计算与通信重叠机制，便于开发者理解和优化 10

开源周第5天：3FS，DeepSeek数据访问推进器 11

OneMoreThing：DeepSeek-V3/R1推理系统实现大模型推理545%理论成本利润率 13

DeepSeek开源六连击，尽显极客风采 16

投资建议 17

风险提示 17

图表目录

图1.FlashMLA示例代码 3

图2.DeepSeek-V2中MLA 4

图3.MoE示意图 5

图4.H800上测试基于纯RDMA低延迟内核 6

图5.标准DeepGEMMvs.MoEDeepGEMM 7

图6.DualPipe调度示例 9

图7.EPLB两层混合专家（MoE）模型示例 9

图8.训练和推理框架的分析数据 11

图9.GraySort基准评估smallpond 12

图10.DeepSeek在线推理系统示意图 14

图11.24小时内用于推理服务的H800节点计数 14

图12.大模型推理理论成本利润率计算过程 15

图13.24小时内DeepSeek-V3/R1推理服务的成本和理论收入 15

图14.FlashMLA中的内联PTX 16

DeepSeek开源周：更大的吞吐，更低的延迟，更极致的性价比

DeepSeek开源周圆满落幕，覆盖全链路技术环节，惊喜连连。在2月21日的开

源周预告之后，DeepSeek如约在2月24日至28日进行了为期5天的“技术轰炸”，

开源了5大代码库，覆盖训练、推理、通信、负载均衡以及数据加速的全链路，惊喜连连。

开源周第1天：FlashMLA，专为Hopper打造的高效MLA解码器

发布FlashMLA，高效处理变长序列，优化内存管理，榨取极致性能。DeepSeek在开源周首日发布了FlashMLA技术。FlashMLA是DeepSeek专为英伟达HopperGPU开发的高效MLA（多头潜在注意力，Multi-headLatentAttention，简称MLA）解码内核，特别针对变长序列进行了优化，目前已正式投入使用。当前发布的功能包括对BF16精度的支持（保留关键精度并兼顾速度）和块大小为64的分页KV缓存（优化内存管理）。经实测，在H800SXM5平台（CUDA12.8）上，FlashMLA在内存受限配置下可达到最高3000GB/s的带宽，在计算受限配置下可达到580TFLOPS的峰值性能。团队在致谢部分表示，FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。

图1.FlashMLA示例代码

数据来源：DeepSeek官方，

MLA是DeepSeek在DeepSeek-V2（2024年5月发布）及后续模型中引入的技术，通过低秩近似方法压缩KV缓存。这种方法显著减少了KV缓存的大小，同时保持了模型性能，从而加速了推理过程。KV缓存是Transformer架构中的一种内存机制，用于存储表示对话上下文的数据，以减少不必要的计算开销。与标准注意力机制相比，MLA将每次查询所需的KV缓存减少了约93.3%。FlashMLA通过优化MLA解码和分页KV缓存，能够提高LLM（大语言模型）的推理效率，尤其在H100/H800（英伟达HopperGPU架构）等GPU上发挥出极致性能。

图2.DeepSeek-V2中MLA

数据来源：DeepSeek官方，

注：图中展示了深度学习架构中的几个模块，包括TransformerBlockxL、DeepSeekMoE以及Multi-HeadLatentAttention(MLA)。

TransformerBlockxL（图左）：含前馈网络处理非线性变换，两次RMSNor