基本信息
文件名称:2025年春江苏开放大学强化学习060733形考作业3.docx
文件大小:15.05 KB
总页数:4 页
更新时间:2025-03-23
总字数:约2.74千字
文档摘要

2025年春江苏开放大学强化学习060733形考作业3

注意:学习平台题目可能是随机,题目顺序与本答案未必一致,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,一定注意答案对应的选项,如果答案有疑问或遗漏,请在下载网站联系上传者(可留下自己的联系方式)进行售后。如需其它科目的答案也可以联系上传者。

试题列表

单选题

题型:单选题客观题分值5分难度:简单得分:5

1

确定性策略梯度算法(DPG)的核心思想是什么?

A:通过最大化当前状态的Q值来选择最优动作

B:通过最小化策略的损失函数来更新策略

C:直接通过策略梯度优化确定性策略的参数

D:通过生成随机动作来更新策略