基本信息
文件名称:2025年强化学习策略迭代(含答案与解析).docx
文件大小:16.62 KB
总页数:23 页
更新时间:2025-10-22
总字数:约7.72千字
文档摘要
2025年强化学习策略迭代(含答案与解析)
一、单选题(共15题)
1.以下哪个技术是实现强化学习策略迭代的关键组件?
A.分布式训练框架
B.持续预训练策略
C.评估指标体系
D.联邦学习隐私保护
答案:C
解析:评估指标体系是强化学习策略迭代的核心,它通过困惑度/准确率等指标来衡量策略的性能,并指导模型的调整和优化。
2.在强化学习中,哪种优化器对比更适合用于高维参数空间?
A.Adam
B.SGD
C.RMSprop
D.Adagrad
答案:A
解析:Adam(AdaptiveMomentEstimation)通过自适应学习率来优化高维参数空间,适用于