基本信息
文件名称:2024大模型场景下智算平台的设计与优化实践 (27页 ).pdf
文件大小:2.41 MB
总页数:27 页
更新时间:2025-05-28
总字数:约1.94万字
文档摘要
j百度智能云
大模型场景下智算平
台的设计与优化实践
肖松
2024.06.14
引言j百度智能云
不同时期对智算平台的需求
2018
客户A我资源比较少,几十卡的规模,如何提升卡的利用率?
客户B我的模型跑起来耗时长,能加速吗?
客户C我想跑大模型,需要多少资源?网络如何构建?多长时间能跑完?
客户D国产卡怎么用?能否与NV卡一起使用?
2024
2
j百度智能云
目录
01大模型时代,智算平台新特点4
02智算平台需解决的问题6
03大模型场景技术实践8
04对于智算平台发展的未来思考25
j百度智能云
01大模型时代,智算平台新特
点
小模型vs.大模型
大模型时代,智算平台新特j百度智能云
点
小模型vs.大模型
ResNet50(小模型)GPT-4(大模型)工程问题
158秒$1555天$2150万增强:耗时长凸显大模型训推加速需求
新增:成本高带来稳定性需求,减少资源闲
训练时长训练成本训练时长训练成本置
参数25M(0.025B)参数1800B增强:参数爆炸突破显存墙,多机多卡成为常
vs.新要求态
增强:卡间和机间高性能通信愈发重要
维持:GPU切分在小模型和推理场景依然存在
算力128块