基本信息
文件名称:第6章 强化学习.pptx
文件大小:7.57 MB
总页数:18 页
更新时间:2025-10-21
总字数:约2.25千字
文档摘要
第6章强化学习
6.1初识强化学习2025年10月20日深度策略表示经过10分钟训练后的效果经过240分钟训练后的效果●学习观测空间到动作空间的映射(策略)●学习的目标是最大化累积回报例1:DQN学习玩雅达利游戏。DeepMind于2015年发表在《Nature》上的论文Mnih,V.,Kavukcuoglu,K.,Silver,D.etal.Human-levelcontrolthroughdeepreinforcementlearning.Nature518,529–533(2015)
6.1初识强化学习2025年10月20日例2:AlphaGo