基本信息
文件名称:新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT).pptx
文件大小:801.23 KB
总页数:21 页
更新时间:2025-07-10
总字数:约5.73千字
文档摘要
新型智算中心改造系列报告一:
网络成大模型训练瓶颈,节点内外多方案并存;;
?训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《EmergentAbilitiesof
LargeLanguageModels》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放