从Scaling Law视角探索大语言模型训练的最优超参.pdf - 创享文库

基本信息

文件名称：从Scaling Law视角探索大语言模型训练的最优超参.pdf

文件大小：9.19 MB

总页数：35 页

更新时间：2025-05-26

总字数：约6.77千字

文档摘要

从ScalingLaw视角探索大语言模型训

练的最优超参

演讲人：阶跃星辰郑文镇

传统超参数调优的痛点与成本

超参曲面的凸性特征与实验细节

Step-Law的提出和拟合

公式的误差分析和对比

Step-Law的全面泛化性

训练数据与结果的全面开源共创

传统超参数调优的痛点与成本

01

第一章节

大模型时代的挑战

性能卓越，但训练不易

大模型的价值和前景大模型的训练成本超参数调优的重要性

大语言模型（LLMs）在自然语言处需要海量GPU集群进行长时间训练，训练中的超参数（如学习率、批大

理、内容生成、智能助手、科学研硬件投入和能源消耗巨大，训练周小、优化器选择等）直接影响模型

究等领域展现出惊人能力，能够实期长达数周甚至数月，迭代速度慢训练的效率和最终性能。不合适的

现更自然的交互、更精准的理解、（例如，训练一个千亿参数超参数会导致训练不稳定、

更强大的创造力，为各行业带来变模型可能需要数百万美元的收敛速度慢、甚至训练失败，

革。

计算资源，耗时数月）浪费大量资源。

传统超参数调优的痛点

效率低下，资源黑洞

手动调参：经验依赖与盲目试错网格搜索与随机搜索：穷举策略的算力瓶颈

?高度依赖经验：调参过程往往依赖研究人员的经验?网格搜索：在预定义的超参数网格中穷举所有可能的组合，

计算量随超参数数量呈指数级增长。

和直觉，缺乏系统性的理论指导。

?随机搜索：随机选择超参数组合进行尝试，虽然避免了穷

?盲目试错：面对庞大的超参数空间，只能通过不断尝试不

举，但仍然缺乏方向性，效率不高。

同的组合，效率低下且难以找到最优解。

?算力瓶颈：面对大模型训练的巨大算力需求，传统的穷举

?难以复现：调参过程记录不完整，导致实验结果难以复现，

式搜索方法显得力不从心，成为性能提升的瓶颈。

浪费时间和资源。

资源浪费：试错成本与机会成本

过度拟合：调优策略的泛化性困境

?GPU空转：大量GPU资源被用于无效的超参数组

?针对性调优：传统调优往往针对特定数据集和任

合尝试，造成算力资源的极大浪费。

务，追求在特定条件下的最优性能。

?时间成本：漫长的调参周期延缓了模型迭代和产品上线，

?泛化性不足：针对特定数据集调优的超参数，可能在新数

错失市场机会。

据集或任务上表现不佳，导致模型泛化能力下降。

?机会成本：研究人员将大量时间投入到繁琐的调参工作中，

?领域适应性差：在数据分布发生变化时，需要重新进行超

无法专注于更具创新性的研究。

参数调优，难以适应复杂多变的实际应用场景。

调参成本量化

学习率大小的权衡