基本信息
文件名称:2025年春江苏开放大学强化学习060733形考作业3.docx
文件大小:15.37 KB
总页数:7 页
更新时间:2025-07-07
总字数:约2.09千字
文档摘要

试题列表

单选题

题型:单选题客观题分值5分难度:简单得分:5

1

确定性策略梯度算法(DPG)的核心思想是什么?

A

通过最大化当前状态的Q值来选择最优动作

B

通过最小化策略的损失函数来更新策略

C

直接通过策略梯度优化确定性策略的参数

D

通过生成随机动作来更新策略

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

2

DQN中用到的技巧有()。

A

目标网络、利用、经验回放

B

目标网络、探索、经验回放

C

Q网络、利用、经验回放

D

V网络、探索、经验回放

学生答案:B

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

3

Actor-Critic