从ScalingLaw视角探索大语言模型训
练的最优超参
演讲人:阶跃星辰郑文镇
传统超参数调优的痛点与成本
超参曲面的凸性特征与实验细节
Step-Law的提出和拟合
公式的误差分析和对比
Step-Law的全面泛化性
训练数据与结果的全面开源共创
传统超参数调优的痛点与成本
01
第一章节
大模型时代的挑战
性能卓越,但训练不易
大模型的价值和前景大模型的训练成本超参数调优的重要性
大语言模型(LLMs)在自然语言处需要海量GPU集群进行长时间训练,训练中的超参数(如学习率、批大
理、内容生成、智能助手、科学研硬件投入和能源消耗巨大,训练周小、优化器选择等)直接影响模型
究等领域展现出惊人能力,能够实期长达数周甚至数月,迭代速度慢训练的效率和最终性能。不合适的
现更自然的交互、更精准的理解、(例如,训练一个千亿参数超参数会导致训练不稳定、
更强大的创造力,为各行业带来变模型可能需要数百万美元的收敛速度慢、甚至训练失败,
革。
计算资源,耗时数月)浪费大量资源。
传统超参数调优的痛点
效率低下,资源黑洞
手动调参:经验依赖与盲目试错网格搜索与随机搜索:穷举策略的算力瓶颈
?高度依赖经验:调参过程往往依赖研究人员的经验?网格搜索:在预定义的超参数网格中穷举所有可能的组合,
计算量随超参数数量呈指数级增长。
和直觉,缺乏系统性的理论指导。
?随机搜索:随机选择超参数组合进行尝试,虽然避免了穷
?盲目试错:面对庞大的超参数空间,只能通过不断尝试不
举,但仍然缺乏方向性,效率不高。
同的组合,效率低下且难以找到最优解。
?算力瓶颈:面对大模型训练的巨大算力需求,传统的穷举
?难以复现:调参过程记录不完整,导致实验结果难以复现,
式搜索方法显得力不从心,成为性能提升的瓶颈。
浪费时间和资源。
资源浪费:试错成本与机会成本
过度拟合:调优策略的泛化性困境
?GPU空转:大量GPU资源被用于无效的超参数组
?针对性调优:传统调优往往针对特定数据集和任
合尝试,造成算力资源的极大浪费。
务,追求在特定条件下的最优性能。
?时间成本:漫长的调参周期延缓了模型迭代和产品上线,
?泛化性不足:针对特定数据集调优的超参数,可能在新数
错失市场机会。
据集或任务上表现不佳,导致模型泛化能力下降。
?机会成本:研究人员将大量时间投入到繁琐的调参工作中,
?领域适应性差:在数据分布发生变化时,需要重新进行超
无法专注于更具创新性的研究。
参数调优,难以适应复杂多变的实际应用场景。
调参成本量化
学习率大小的权衡