深度学习在决策类游戏中的应用研究国内外文献综述
国外研究现状
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的分支。强化学习一般通过马尔科夫决策(Markovdecisionprocess,MDP)表示,主要元素包含(S,A,R,T,γ),其中,S表示所处的环境状态,A表示智能体采取的动作,R表示得到的奖励值,T表示状态转移概率,γ表示折扣因子REF_Re\r\h[23]。
深度学习具有十分强大的感知能力,甚至在某些应用场景中甚至超过了人类。它通过深度神经网络提取初始特征,并在图像识别,语音识别和机器翻译等许多领域都取得了成功。深度强化学习(deepreinforcementlearning,DRL)是通过利用深度学习强打的感知能力来处理复杂的高维度环境特征,并结合强化学习的思想来和环境进行互动从而完成整个决策过程。2015年DeepMind团队在Nature上发表了深度Q网络(deepQ-network,DQN)的文章REF_Re\r\h[12]REF_Re\r\h[19],认为DRL可以实现类人水平的控制。2017年,DeepMind团队推出了AlphaGo,并且击败了围棋世界冠军李世石。AlphaGo主要是采用价值评估网络来评估棋盘的位置,下棋位置的选择则是通过策略网络来实现。此后,通过DRL实现的AlphaGoZero只经过短时间的训练就击败了AlphaGo。可见,上述成果证明深度学习和强化学习在解决博弈决策问题上拥有巨大的潜力。
此外DeepMind,通过深度学习的算法再加上图像方面的处理方法,在Atari的桌面游戏中取得了惊人的成绩且大部分远超于人类游戏水平。2007年,在MichaelBowling和他的计算机扑克研究小组中,他们研究的反遗憾最小化(CounterfacutalRegretMinimization,CFR)REF_Re\r\h[4]算法,在德州扑克上取得了成功,并在2015年和2016年,于《Science》上发表了有限注德州扑克和无限注德州扑克问题的研究著作REF_Re\r\h[28]REF_Re\r\h[29],其中实现的DeepStack系统成功打败许多优秀的德州扑克决策系统。
日本东京大学研发的NaokiMizukami和YoshimasaTsuruoka开发的基于日本麻将规则的AI在“天风”对战台上取得了较好的成绩。他们使用传统的机器学习算法,通过特征提取,并使用线性分类器,最后成功地研发出了了麻将AI。此后还利用支持向量机算法实现了多人麻将决策系统。
国内研究现状
腾讯的AILab利用DRL研究了多人在线战术竞技(muti-playeronlinebattlearenaMOBA)游戏的1V1模式,该游戏具有十分复杂的环境以及很多的控制量REF_Re\r\h[23]。YeD等人提出了一种包含人工AI服务器、各种测试模块以及记忆池的DRL架构来处理该游戏环境REF_Re\r\h[24]。哈尔滨工业大学王轩教授从2003年开始研究机器博弈,将深度强化学习算法和传统的机器学习算法应用在不完全信息博弈问题上REF_Re\r\h[25]。浙江大学的李翔团队利用基于知识的方法应用在预测多人无限注德州扑克上,也取得了不俗的成绩REF_Re\r\h[26]。2013年国内学者开发了一种半监督学习算法,称为卷积深度网络(ConvolutionalDeepNetworks,CDN),用来解决深度学习中图像的分类问题REF_Re\r\h[27]。提取符合数据分布结构的特征一直是模式识别领域的热点问题,孙志军等在预训练阶段采用非监督正则化,并利用边际Fisher准则进一步约束提取特征,提出了基于深度学习的边际Fisher分析特征提取算法DMFA(DeepMarginalFisherAnalysis),并提升了识别率。REF_Re\r\h[20]REF_Re\r\h[21]
发展状况
在现阶段,DRL的研究已经取得了长足的进步,但是算法中仍然存在采样效率较低,无法设置合适的奖励值,探索更进一步的难题等问题。在应用方面,主要研究DRL在虚拟环境中的性能和实现,但很难在实际环境中进行,主要是由于DRL算法训练需要大量的采样数据。此外,DRL算法还存在泛化能力不足、鲁棒性不强