内容目录
内容目录
DeepSeek开源周:更大的吞吐,更低的延迟,更极致的性价比 3
开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器 3
开源周第2天:DeepEP,首个为MoE量身定制的灵活GPU资源控制通信库 5
开源周第3天:DeepGEMM,直面AI计算中最频繁的矩阵乘法 7
开源周第4天:优化并行策略,提升训练速度与资源利用率 8
DualPipe:创新双向流水线并行算法 8
EPLB:优化专家并行架构训练效率 9
深入分析V3/R1模型中的计算与通信重叠机制,便于开发者理解和优化 10
开源周第5天:3FS,DeepSeek数据访问推进器 11
OneMoreThing:DeepSeek-V3/R1推理系统实现大模型推理545%理论成本利润率 13
DeepSeek开源六连击,尽显极客风采 16
投资建议 17
风险提示 17
图表目录
图表目录
图1.FlashMLA示例代码 3
图2.DeepSeek-V2中MLA 4
图3.MoE示意图 5
图4.H800上测试基于纯RDMA低延迟内核 6
图5.标准DeepGEMMvs.MoEDeepGEMM 7
图6.DualPipe调度示例 9
图7.EPLB两层混合专家(MoE)模型示例 9
图8.训练和推理框架的分析数据 11
图9.GraySort基准评估smallpond 12
图10.DeepSeek在线推理系统示意图 14
图11.24小时内用于推理服务的H800节点计数 14
图12.大模型推理理论成本利润率计算过程 15
图13.24小时内DeepSeek-V3/R1推理服务的成本和理论收入 15
图14.FlashMLA中的内联PTX 16
DeepSeek开源周:更大的吞吐,更低的延迟,更极致的性价比
DeepSeek开源周圆满落幕,覆盖全链路技术环节,惊喜连连。在2月21日的开
源周预告之后,DeepSeek如约在2月24日至28日进行了为期5天的“技术轰炸”,
开源了5大代码库,覆盖训练、推理、通信、负载均衡以及数据加速的全链路,惊喜连连。
开源周第1天:FlashMLA,专为Hopper打造的高效MLA解码器
发布FlashMLA,高效处理变长序列,优化内存管理,榨取极致性能。DeepSeek在开源周首日发布了FlashMLA技术。FlashMLA是DeepSeek专为英伟达HopperGPU开发的高效MLA(多头潜在注意力,Multi-headLatentAttention,简称MLA)解码内核,特别针对变长序列进行了优化,目前已正式投入使用。当前发布的功能包括对BF16精度的支持(保留关键精度并兼顾速度)和块大小为64的分页KV缓存(优化内存管理)。经实测,在H800SXM5平台(CUDA12.8)上,FlashMLA在内存受限配置下可达到最高3000GB/s的带宽,在计算受限配置下可达到580TFLOPS的峰值性能。团队在致谢部分表示,FlashMLA的设计参考了FlashAttention-2、FlashAttention-3以及CUTLASS的技术实现。
图1.FlashMLA示例代码
数据来源:DeepSeek官方,
MLA是DeepSeek在DeepSeek-V2(2024年5月发布)及后续模型中引入的技术,通过低秩近似方法压缩KV缓存。这种方法显著减少了KV缓存的大小,同时保持了模型性能,从而加速了推理过程。KV缓存是Transformer架构中的一种内存机制,用于存储表示对话上下文的数据,以减少不必要的计算开销。与标准注意力机制相比,MLA将每次查询所需的KV缓存减少了约93.3%。FlashMLA通过优化MLA解码和分页KV缓存,能够提高LLM(大语言模型)的推理效率,尤其在H100/H800(英伟达HopperGPU架构)等GPU上发挥出极致性能。
图2.DeepSeek-V2中MLA
数据来源:DeepSeek官方,
注:图中展示了深度学习架构中的几个模块,包括TransformerBlockxL、DeepSeekMoE以及Multi-HeadLatentAttention(MLA)。
TransformerBlockxL(图左):含前馈网络处理非线性变换,两次RMSNor