基本信息
文件名称:昇腾DeepSeek解决方案2025 华为-宏观大势.pptx
文件大小:2.44 MB
总页数:32 页
更新时间:2025-05-21
总字数:约1.86千字
文档摘要

把握DeepSeek时刻,携手同行

华为昇腾AI解决方案汇报;;;

技术创新

硬件级、算法级、架构级、工程级、开源生态5大技术创新,轰动全球

绕过GUDA进行PTX编程

计算与通信优化,性能提升30%

GRPO:群体进化的智慧筛选器

自我验证机制:AI的错题本系统

混合专家模型的智能路由器“

多头潜在注意力MLA:空间压缩术

训练框架加速:16到3的量化压缩,通信降低89%

推理加速:预加载,动态批处理等

模型、数据、工具链、部署全开源蒸馏技术使能第三方模型性能;

DeepSeekR1:在Reasoning任务达到了世界水平(OpenAI-o1);;

①模型结构

?每个MTP模块共享嵌入层和输出头

?每个MTP模块独占一个TransformerBlock和一个投影矩阵

?多个MTP模块串联保持完整的因果关系链

②训练策略

?每个MTP模块输出预测token的概率分布

?每个MTP模块计算对应的交叉熵损失函数

?多个MTP模块的损失函数加权平均得到最终训练目标

③关键作用

?提升每批训练数据的使用效率,强化训练信号

?优化模型表达能力,提升next-token的预测效果

?可参考投机采样改造MTP模块,加速推理效率;

①细粒度的计算通信并行

?将PPstage拆分为更细的模块,提升模块交替编排的灵活度

?参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作

?经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠

②双向管道调度减少PP中的气泡

?1F1B中每个batch拆分为1个forward和1个backward

?ZeroBubble中把backward拆分为input和weight两个部分

?DualPipe中使用对称处理,不同batch从不同的device上开始流水

③每卡显存占用略微增大;

模型结构优化计算通信优化后训练优化;

大模型从技术摸高走向技术摸高+工程创新并行,训练需求持续增长

①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐ScalingLaw,加速探索AGI

②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模千态”;

ASISTOBE

基础模型(DeepSeek/

Llama/Qwen/…)

…大量行业数据

监督微调SFT

更多行业

高质量数据生成

监督微调SFT

行业大模型

模型蒸馏-模型小型化

部署更高效

月级调优周/天级优化;

模型服务商;

编程辅助

智能客服

…;

模型集合;;;;

模型训练:算网/算存深度协同是大模型分布式并行训练的基础

大模型技术发展方向;;

场景/应用;;

昇腾已支持国内外开源开放大模型,实测性能持平业界

国内唯一已完成训练千亿参数大模型的技术路线,业界主流大模型PyTorch实测性能均达到0.8~1.1倍业界;

DeepSeek系列模型昇腾训练产品适配计划及微调部署建议

DeepSeek系列预训练完成昇腾适配,目标性能1.1xNVDeepSeek系列模型微调目标性能1.1x业界(Q1);

DeepSeekV3/DeepSeekR1(671B)“满血版”;

参数面;

6;;;;;

“华为在计算机视觉、自然语言处理、语音识别等领域进行了广

泛的研究,并且在大模型领域也积累了成熟的研究经验。我们相信PyTorch基金会将从他们对我们的成员和生态系统的支持中受益匪浅。

——PyTorch基金会执行董事IbrahimHaddad;

把数字世界带入每个人、每个家庭、

每个组织,构建万物互联的智能世界。Bringdigitaltoeveryperson,home,and

organizationforafullyconnected,

intelligentworld.