PolicyGradient2018年11月16日
目录Contents策略梯度及类别目标函数及梯度的计算为什么要使用策略梯度算法
PolicyGradient基于价值的方法:计算或估计出每个状态及动作的q值,基于q值决策基于策略的方法:将状态映射到动作的概率分布,根据概率分布决策?无需以计算价值为中介,直接估计概率分布使用基于梯度的方法来优化使用机器学习模型近似
PolicyGradient确定性策略(deterministic):进行返回概率分布中概率最大的动作随机性策略(stochastic):从返回的概率分布中抽样决策天然探索环境的能力0.20.8
WhyPolicyGradient?价值方法中训练数据中随机的扰动会改变价值方程中的价值梯度上升方法逐步学习策略参数,训练过程平缓,扰动影响较小梯度上升保证训练出的结果一定能收敛到局部或全局最优
WhyPolicyGradient?高维动作空间的情况下将更有效基于价值的方法对每一个动作估计q值,再根据其最大值决策基于策略的方法只需要估计策略的参数即可,减少了决策需要的时间?
WhyPolicyGradient?学习随机性的策略解决感知混淆(perceptualaliasing)问题
WhyPolicyGradient?
WhyPolicyGradient?
PolicyScoreFunction1?适用于回合制环境,由于回合制环境每一次都从初始状态开始,所以可以直接通过初始状态的期望回报和来衡量策略的好坏
PolicyScoreFunction2??适用于连续型场合,因为在连续型场合没有类似于回合制的一个贯穿始终的起点或终点的概念,所以每一种状态都需要纳入考虑
PolicyScoreFunction3?运用更为广泛,考虑各状态s各动作a的平均回报
CalculatetheGradient?不是一个损失函数,是一个得分函数,使用梯度上升来求解???LikelihoodRatioTrick
CalculatetheGradient????UpdateRule:
Algorithm?
ImprovementsActorCritic:基于价值与基于策略学习的混合版本ProximalPolicyOptimization:较好地解决了固定步长带来的问题数据效率不高收敛慢方差大