基本信息
文件名称:广告投放优化:基于强化学习的广告投放策略_(3).马尔可夫决策过程与动态规划.docx
文件大小:22.38 KB
总页数:8 页
更新时间:2025-08-27
总字数:约4.15千字
文档摘要

PAGE1

PAGE1

马尔可夫决策过程与动态规划

马尔可夫决策过程(MarkovDecisionProcess,MDP)

马尔可夫决策过程(MDP)是强化学习中一个重要的数学框架,用于建模决策过程,特别是在动态环境中。MDP通过状态、动作、奖励和转移概率来描述一个智能体(agent)如何与环境(environment)互动以达到目标。

定义

MDP可以形式化地定义为一个五元组S,

S是状态集合。

A是动作集合。

P是状态转移概率矩阵,Ps,s′a表示在状态s执行动作a

R是奖励函数,Rs,a表示在状态s执行动作

γ是折扣因子,取值范围为