基本信息
文件名称:2024大模型场景下智算平台的设计与优化实践 (27页 ).pdf
文件大小:2.41 MB
总页数:27 页
更新时间:2025-05-28
总字数:约1.94万字
文档摘要

j百度智能云

大模型场景下智算平

台的设计与优化实践

肖松

2024.06.14

引言j百度智能云

不同时期对智算平台的需求

2018

客户A我资源比较少,几十卡的规模,如何提升卡的利用率?

客户B我的模型跑起来耗时长,能加速吗?

客户C我想跑大模型,需要多少资源?网络如何构建?多长时间能跑完?

客户D国产卡怎么用?能否与NV卡一起使用?

2024

2

j百度智能云

目录

01大模型时代,智算平台新特点4

02智算平台需解决的问题6

03大模型场景技术实践8

04对于智算平台发展的未来思考25

j百度智能云

01大模型时代,智算平台新特

小模型vs.大模型

大模型时代,智算平台新特j百度智能云

小模型vs.大模型

ResNet50(小模型)GPT-4(大模型)工程问题

158秒$1555天$2150万增强:耗时长凸显大模型训推加速需求

新增:成本高带来稳定性需求,减少资源闲

训练时长训练成本训练时长训练成本置

参数25M(0.025B)参数1800B增强:参数爆炸突破显存墙,多机多卡成为常

vs.新要求态

增强:卡间和机间高性能通信愈发重要

维持:GPU切分在小模型和推理场景依然存在

算力128块