广告投放优化：基于强化学习的广告投放策略_（3）.马尔可夫决策过程与动态规划.docx

基本信息

文件名称：广告投放优化：基于强化学习的广告投放策略_（3）.马尔可夫决策过程与动态规划.docx

文件大小：22.38 KB

总页数：8 页

更新时间：2025-08-27

总字数：约4.15千字

文档摘要

PAGE1

马尔可夫决策过程与动态规划

马尔可夫决策过程（MarkovDecisionProcess,MDP）

马尔可夫决策过程（MDP）是强化学习中一个重要的数学框架，用于建模决策过程，特别是在动态环境中。MDP通过状态、动作、奖励和转移概率来描述一个智能体（agent）如何与环境（environment）互动以达到目标。

定义

MDP可以形式化地定义为一个五元组S,

S是状态集合。

A是动作集合。

P是状态转移概率矩阵，Ps,s′a表示在状态s执行动作a

R是奖励函数，Rs,a表示在状态s执行动作

γ是折扣因子，取值范围为