把握DeepSeek时刻,携手同行
华为昇腾AI解决方案汇报;;;
技术创新
硬件级、算法级、架构级、工程级、开源生态5大技术创新,轰动全球
绕过GUDA进行PTX编程
计算与通信优化,性能提升30%
GRPO:群体进化的智慧筛选器
自我验证机制:AI的错题本系统
混合专家模型的智能路由器“
多头潜在注意力MLA:空间压缩术
训练框架加速:16到3的量化压缩,通信降低89%
推理加速:预加载,动态批处理等
模型、数据、工具链、部署全开源蒸馏技术使能第三方模型性能;
DeepSeekR1:在Reasoning任务达到了世界水平(OpenAI-o1);;
①模型结构
?每个MTP模块共享嵌入层和输出头
?每个MTP模块独占一个TransformerBlock和一个投影矩阵
?多个MTP模块串联保持完整的因果关系链
②训练策略
?每个MTP模块输出预测token的概率分布
?每个MTP模块计算对应的交叉熵损失函数
?多个MTP模块的损失函数加权平均得到最终训练目标
③关键作用
?提升每批训练数据的使用效率,强化训练信号
?优化模型表达能力,提升next-token的预测效果
?可参考投机采样改造MTP模块,加速推理效率;
①细粒度的计算通信并行
?将PPstage拆分为更细的模块,提升模块交替编排的灵活度
?参考ZeroBubble,反向传递中的权重更新和梯度传递独立操作
?经过细粒度的拆分和编排之后,计算流和通信流的barrier刚好可以重叠
②双向管道调度减少PP中的气泡
?1F1B中每个batch拆分为1个forward和1个backward
?ZeroBubble中把backward拆分为input和weight两个部分
?DualPipe中使用对称处理,不同batch从不同的device上开始流水
③每卡显存占用略微增大;
模型结构优化计算通信优化后训练优化;
大模型从技术摸高走向技术摸高+工程创新并行,训练需求持续增长
①技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐ScalingLaw,加速探索AGI
②工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升,出现平权现象,引发新一波的“百模千态”;
ASISTOBE
基础模型(DeepSeek/
Llama/Qwen/…)
…大量行业数据
监督微调SFT
更多行业
高质量数据生成
监督微调SFT
行业大模型
模型蒸馏-模型小型化
部署更高效
月级调优周/天级优化;
模型服务商;
编程辅助
智能客服
…;
模型集合;;;;
模型训练:算网/算存深度协同是大模型分布式并行训练的基础
大模型技术发展方向;;
场景/应用;;
昇腾已支持国内外开源开放大模型,实测性能持平业界
国内唯一已完成训练千亿参数大模型的技术路线,业界主流大模型PyTorch实测性能均达到0.8~1.1倍业界;
DeepSeek系列模型昇腾训练产品适配计划及微调部署建议
DeepSeek系列预训练完成昇腾适配,目标性能1.1xNVDeepSeek系列模型微调目标性能1.1x业界(Q1);
DeepSeekV3/DeepSeekR1(671B)“满血版”;
参数面;
6;;;;;
“华为在计算机视觉、自然语言处理、语音识别等领域进行了广
泛的研究,并且在大模型领域也积累了成熟的研究经验。我们相信PyTorch基金会将从他们对我们的成员和生态系统的支持中受益匪浅。
——PyTorch基金会执行董事IbrahimHaddad;
把数字世界带入每个人、每个家庭、
每个组织,构建万物互联的智能世界。Bringdigitaltoeveryperson,home,and
organizationforafullyconnected,
intelligentworld.