基本信息
文件名称:2025年强化学习策略梯度估计(含答案与解析).docx
文件大小:16.67 KB
总页数:23 页
更新时间:2025-10-22
总字数:约7.65千字
文档摘要

2025年强化学习策略梯度估计(含答案与解析)

一、单选题(共15题)

1.以下哪种方法在强化学习中用于提高梯度估计的精度?

A.蒙特卡洛采样

B.重要性采样

C.经验回放

D.在线学习

答案:A

解析:蒙特卡洛采样在强化学习中用于梯度估计,通过随机采样来估计状态值函数,从而提高估计的精度。参考《强化学习:原理与算法》2025年版第4章。

2.在强化学习策略梯度估计中,以下哪种方法可以有效减少方差?

A.均匀采样

B.分层采样

C.随机采样

D.确定性采样

答案:B

解析:分层采样通过将状态空间划分为不同的层,然后从每一层中独立采样,可以有效减少梯度估计的方差。参考《深度强化学习