基本信息
文件名称:基于值函数的强化学习方法及应用研究分析 数学与应用数学专业.docx
文件大小:1.36 MB
总页数:39 页
更新时间:2025-05-16
总字数:约3.3万字
文档摘要
目录
TOC\o1-3\h\z\u
第一章绪论 1
1.1 研究背景及意义 1
1.2 研究现状 2
1.3 论文的主要工作及组织结构 3
第二章背景知识介绍 5
2.1马尔科夫决策过程 5
2.2基于模型的动态规划方法 6
2.3基于蒙特卡罗方法的理论 6
2.4基于时间差分的强化学习方法 7
2.4.1SARSA学习 8
2.4.2Q-learning方法 9
第三章Q-learning及其改进算法研究 10
3.1Q-learning算法 10
3.1.1Q-lear