基本信息
文件名称:2025《强化学习概况综述》3500字.doc
文件大小:261.43 KB
总页数:6 页
更新时间:2025-12-10
总字数:约7.08千字
文档摘要

-PAGE53-

强化学习概况综述

1马尔可夫决策过程(MDP)

任何强化学习问题都能抽象为马尔可夫决策过程(MDP)[94],如图1.1所示。马尔可夫决策过程可以用五元组参数来表示,其中表示状态空间,状态空间中的状态可为连续状态或离散状态;表示动作空间,与状态空间类似,它里面的动作也可为连续的或离散的;表示转移概率空间,是状态转移概率,表示从当前状态和当前动作到下一时刻的概率;表示奖励函数,与当前的状态和动作有关;是折扣因子,表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。MDP满足马尔可夫性质,即在现在状态已知的情况下,未来的状态和过去的状态条件独立。总的来说,马