基本信息
文件名称:广告投放优化:基于强化学习的广告投放策略_(3).马尔可夫决策过程与动态规划.docx
文件大小:22.38 KB
总页数:8 页
更新时间:2025-08-27
总字数:约4.15千字
文档摘要
PAGE1
PAGE1
马尔可夫决策过程与动态规划
马尔可夫决策过程(MarkovDecisionProcess,MDP)
马尔可夫决策过程(MDP)是强化学习中一个重要的数学框架,用于建模决策过程,特别是在动态环境中。MDP通过状态、动作、奖励和转移概率来描述一个智能体(agent)如何与环境(environment)互动以达到目标。
定义
MDP可以形式化地定义为一个五元组S,
S是状态集合。
A是动作集合。
P是状态转移概率矩阵,Ps,s′a表示在状态s执行动作a
R是奖励函数,Rs,a表示在状态s执行动作
γ是折扣因子,取值范围为