《大语言模型》课件 09强化学习、10元学习.ppt

基本信息

文件名称：《大语言模型》课件 09强化学习、10元学习.ppt

文件大小：4.75 MB

总页数：84 页

更新时间：2025-12-18

总字数：约2.3万字

文档摘要

.可以看出，PPO算法对步长十分敏感，但是选择合适的步长有些困难，在训练过程中新旧策略的变化差异如果过大，则不利于学习。PPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了策略梯度算法中步长难以确定的问题。奖励损失不可导的原因是奖励模型是根据文本生成的结果计算出来的。这个文本是通过对语言模型输出的对数概率进行解码得到的，这个解码过程是不可导的。为了使损失可导，在语言模型上应用PPO算法可对计算的损失函数进行小的修改，应用PPO算法修改损失函数如图9-10所示。.具体过程如下。（1）将初始概率设为新概率进行初始化。（2）计算新输出文本概率与