昇腾DeepSeek解决方案2025 华为-宏观大势.pptx

基本信息

文件名称：昇腾DeepSeek解决方案2025 华为-宏观大势.pptx

文件大小：2.44 MB

总页数：32 页

更新时间：2025-05-21

总字数：约1.86千字

文档摘要

把握DeepSeek时刻，携手同行

华为昇腾AI解决方案汇报;;;

技术创新

硬件级、算法级、架构级、工程级、开源生态5大技术创新，轰动全球

绕过GUDA进行PTX编程

计算与通信优化，性能提升30%

GRPO：群体进化的智慧筛选器

自我验证机制：AI的错题本系统

混合专家模型的智能路由器“

多头潜在注意力MLA：空间压缩术

训练框架加速：16到3的量化压缩，通信降低89%

推理加速：预加载，动态批处理等

模型、数据、工具链、部署全开源蒸馏技术使能第三方模型性能;

DeepSeekR1:在Reasoning任务达到了世界水平（OpenAI-o1）;;

①模型结构

?每个MTP模块共享嵌入层和输出头

?每个MTP模块独占一个TransformerBlock和一个投影矩阵

?多个MTP模块串联保持完整的因果关系链

②训练策略

?每个MTP模块输出预测token的概率分布

?每个MTP模块计算对应的交叉熵损失函数

?多个MTP模块的损失函数加权平均得到最终训练目标

③关键作用

?提升每批训练数据的使用效率，强化训练信号

?优化模型表达能力，提升next-token的预测效果

?可参考投机采样改造MTP模块，加速推理效率;

①细粒度的计算通信并行

?将PPstage拆分为更细的模块，提升模块交替编排的灵活度

?参考ZeroBubble，反向传递中的权重更新和梯度传递独立操作

?经过细粒度的拆分和编排之后，计算流和通信流的barrier刚好可以重叠

②双向管道调度减少PP中的气泡

?1F1B中每个batch拆分为1个forward和1个backward

?ZeroBubble中把backward拆分为input和weight两个部分

?DualPipe中使用对称处理，不同batch从不同的device上开始流水

③每卡显存占用略微增大;

模型结构优化计算通信优化后训练优化;

大模型从技术摸高走向技术摸高+工程创新并行，训练需求持续增长

①技术摸高：头部玩家将战略坚定投入预训练基础模型创新，丰富模型组合，追逐ScalingLaw，加速探索AGI

②工程创新：新的范式降低后训练和蒸馏门槛，模型效果大幅提升，出现平权现象，引发新一波的“百模千态”;

ASISTOBE

基础模型(DeepSeek/

Llama/Qwen/…)

…大量行业数据

监督微调SFT

更多行业

高质量数据生成

监督微调SFT

行业大模型

模型蒸馏-模型小型化

部署更高效

月级调优周/天级优化;

模型服务商;

编程辅助

智能客服

…;

模型集合;;;;

模型训练：算网/算存深度协同是大模型分布式并行训练的基础

大模型技术发展方向;;

场景/应用;;

昇腾已支持国内外开源开放大模型，实测性能持平业界

国内唯一已完成训练千亿参数大模型的技术路线，业界主流大模型PyTorch实测性能均达到0.8~1.1倍业界;

DeepSeek系列模型昇腾训练产品适配计划及微调部署建议

DeepSeek系列预训练完成昇腾适配，目标性能1.1xNVDeepSeek系列模型微调目标性能1.1x业界（Q1）;

DeepSeekV3/DeepSeekR1（671B）“满血版”;

参数面;

6;;;;;

“华为在计算机视觉、自然语言处理、语音识别等领域进行了广

泛的研究，并且在大模型领域也积累了成熟的研究经验。我们相信PyTorch基金会将从他们对我们的成员和生态系统的支持中受益匪浅。

——PyTorch基金会执行董事IbrahimHaddad;

把数字世界带入每个人、每个家庭、

每个组织，构建万物互联的智能世界。Bringdigitaltoeveryperson,home,and

organizationforafullyconnected,

intelligentworld.