基于梯度的优化方法：梯度下降法_11.梯度下降法的改进方法：动量法、自适应学习率方法.docx

基本信息

文件名称：基于梯度的优化方法：梯度下降法_11.梯度下降法的改进方法：动量法、自适应学习率方法.docx

文件大小：24.9 KB

总页数：15 页

更新时间：2026-02-11

总字数：约1.1万字

文档摘要

PAGE1

11.梯度下降法的改进方法：动量法、自适应学习率方法

11.1动量法(Momentum)

11.1.1基本原理

动量法是一种用于加速梯度下降过程的技术，通过在梯度下降中引入“动量”项来减少梯度下降的振荡，使优化过程更加平稳。动量法的思想来源于物理学中的动量概念，即在更新参数时不仅考虑当前的梯度方向，还考虑之前梯度的方向和大小。这样可以累积之前的梯度信息，帮助梯度下降更快地收敛。

动量法的更新公式如下：

其中：-vt是动量项，表示当前时刻的速度。-γ是动量衰减因子，通常取值在0到1之间。-η是学习率。-?θJθ