2025年春江苏开放大学强化学习060733形考作业3.docx - 创享文库

基本信息

文件名称：2025年春江苏开放大学强化学习060733形考作业3.docx

文件大小：15.37 KB

总页数：7 页

更新时间：2025-07-07

总字数：约2.09千字

文档摘要

试题列表

单选题

题型：单选题客观题分值5分难度：简单得分：5

1

确定性策略梯度算法（DPG）的核心思想是什么？

A

通过最大化当前状态的Q值来选择最优动作

B

通过最小化策略的损失函数来更新策略

C

直接通过策略梯度优化确定性策略的参数

D

通过生成随机动作来更新策略

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

2

DQN中用到的技巧有（）。

A

目标网络、利用、经验回放

B

目标网络、探索、经验回放

C

Q网络、利用、经验回放

D

V网络、探索、经验回放

学生答案：B

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

3

Actor-Critic