基本信息
文件名称:2025年策略梯度算法优化测试题(含答案与解析).docx
文件大小:16.29 KB
总页数:11 页
更新时间:2025-09-05
总字数:约8.36千字
文档摘要
2025年策略梯度算法优化测试题(含答案与解析)
一、单选题(共15题)
1.在策略梯度算法中,以下哪个不是常用的策略更新方法?
A.REINFORCE
B.A2C
C.DQN
D.TRPO
答案:C
解析:策略梯度算法中,REINFORCE、A2C和TRPO都是常用的策略更新方法。DQN(DeepQ-Network)是另一种强化学习算法,主要用于值函数的估计,不属于策略梯度算法的范畴。参考《强化学习:原理与算法》2025版4.2节。
2.以下哪种方法可以有效地解决梯度消失问题?
A.使用ReLU激活函数
B.增加网络层数
C.使用批归一化
D.增加学习率
答案