基本信息
文件名称:2025年春江苏开放大学强化学习060733形考作业3.docx
文件大小:15.37 KB
总页数:7 页
更新时间:2025-07-07
总字数:约2.09千字
文档摘要
试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
确定性策略梯度算法(DPG)的核心思想是什么?
A
通过最大化当前状态的Q值来选择最优动作
B
通过最小化策略的损失函数来更新策略
C
直接通过策略梯度优化确定性策略的参数
D
通过生成随机动作来更新策略
学生答案:C
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
2
DQN中用到的技巧有()。
A
目标网络、利用、经验回放
B
目标网络、探索、经验回放
C
Q网络、利用、经验回放
D
V网络、探索、经验回放
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
3
Actor-Critic