2025《强化学习概况综述》3500字.doc

基本信息

文件名称：2025《强化学习概况综述》3500字.doc

文件大小：261.43 KB

总页数：6 页

更新时间：2025-12-10

总字数：约7.08千字

文档摘要

-PAGE53-

强化学习概况综述

1马尔可夫决策过程（MDP）

任何强化学习问题都能抽象为马尔可夫决策过程（MDP）[94]，如图1.1所示。马尔可夫决策过程可以用五元组参数来表示，其中表示状态空间，状态空间中的状态可为连续状态或离散状态；表示动作空间，与状态空间类似，它里面的动作也可为连续的或离散的；表示转移概率空间，是状态转移概率，表示从当前状态和当前动作到下一时刻的概率；表示奖励函数，与当前的状态和动作有关；是折扣因子，表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。MDP满足马尔可夫性质，即在现在状态已知的情况下，未来的状态和过去的状态条件独立。总的来说，马