基本信息
文件名称:2025《强化学习过程概述》3300字.docx
文件大小:63.17 KB
总页数:6 页
更新时间:2025-11-01
总字数:约3.43千字
文档摘要
PAGE2
强化学习过程概述
强化学习[28]是在机器学习领域中广泛应用于解决序贯决策问题[29]的常见方法。其主要应用于智能控制[30]、游戏博弈[31]、仿真模拟[32]等众多带有交互行和决策性问题的领域。在这些领域中,强化学习比监督学校和非监督学习发挥更佳的作用。强化学习的核心思想是智能体在同外部环境交互中学习最优策略,使得最大化累计奖励。
强化学习的基本框架如下图2-3所示。假设当前的步数是t,步数t下智能体的状态为st,st状态下智能体选取的动作为at,执行动作at后环境反馈给智能体的即时奖励为rt。s
图2-3强化学习框架图
智能体(agent)根据自身在环境中(envi