2025《强化学习过程概述》3300字.docx

基本信息

文件名称：2025《强化学习过程概述》3300字.docx

文件大小：63.17 KB

总页数：6 页

更新时间：2025-11-01

总字数：约3.43千字

文档摘要

PAGE2

强化学习过程概述

强化学习[28]是在机器学习领域中广泛应用于解决序贯决策问题[29]的常见方法。其主要应用于智能控制[30]、游戏博弈[31]、仿真模拟[32]等众多带有交互行和决策性问题的领域。在这些领域中，强化学习比监督学校和非监督学习发挥更佳的作用。强化学习的核心思想是智能体在同外部环境交互中学习最优策略，使得最大化累计奖励。

强化学习的基本框架如下图2-3所示。假设当前的步数是t，步数t下智能体的状态为st，st状态下智能体选取的动作为at，执行动作at后环境反馈给智能体的即时奖励为rt。s

图2-3强化学习框架图

智能体（agent）根据自身在环境中（envi