基本信息
文件名称:2025年策略梯度算法优化测试题(含答案与解析).docx
文件大小:16.29 KB
总页数:11 页
更新时间:2025-09-05
总字数:约8.36千字
文档摘要

2025年策略梯度算法优化测试题(含答案与解析)

一、单选题(共15题)

1.在策略梯度算法中,以下哪个不是常用的策略更新方法?

A.REINFORCE

B.A2C

C.DQN

D.TRPO

答案:C

解析:策略梯度算法中,REINFORCE、A2C和TRPO都是常用的策略更新方法。DQN(DeepQ-Network)是另一种强化学习算法,主要用于值函数的估计,不属于策略梯度算法的范畴。参考《强化学习:原理与算法》2025版4.2节。

2.以下哪种方法可以有效地解决梯度消失问题?

A.使用ReLU激活函数

B.增加网络层数

C.使用批归一化

D.增加学习率

答案