摘要:随着近几年人工智能的不断发展,深度学习受到越来越多的关注。并且随着强化学习的兴起,将深度学习与强化学习算法结合起来,形成深度强化学习算法,并得到了广泛的研究,将其应用到了各行各业当中。本文对深度强化学习做了简要的概述,介绍了其基础理论以及主要的算法,并讨论了其相关应用,最后做了总结。
关键词:人工智能;深度学习;强化学习
中图分类号:TP312 文献标识码:A 文章编号:1009-3044(2019)03-0193-02
1 引言
近年来,随着人工智能的不断发展,深度强化学习(Deep Reinforcement Learning,DRL)算法已经成为此领域当中最受关注的算法之一。DRL将深度学习与强化学习结合起来,主要解决了在高维空间下和状态空间下决策问题。例如,谷歌公司在围棋程序AlphaGo中,应用深度强化学习算法,在与人类的围棋博弈中,以较大比分取得了胜利。除此之外,DRL算法在自动翻译[1]、无人驾驶[2]、对话系统[3]以及视频检测[4]方面,以其强大的算法能力均取得了不俗的成绩。所以对深度强化学习算法进行深入的研究以及改进是有重要意义的。
本文中第2小节介绍深度强化学习算法的基础理论以及主要算法,第3小节中介绍深度强化学习算法的实际应用,最后在第4小节中对深度强化学习进行总结与展望。
2 深度强化学习算法
2.1 基础理论
深度强化学习算法是在强化学习算法的基础上加入了深度学习算法,从某种意义上来看,可以将其看作是对强化学习算法的一种有效改进。对于常规的强化学习(Reinforcement Learning,RL)算法来讲,经常是用一个Agent在于环境交互的过程中学习决策策略。在Agent工作的时候,往往是在勘探与开发的权衡中,根据环境的当前状态在每个时间步骤上,采取适当的行动来最大化累积奖励。也就是说,RL中研究的就是通过对策略的不断改进,以期待得到最大的累积奖励。此外RL算法中利用状态值函数和动作值函数来确定每个状态或者每个状态-动作对的好坏。在Agent进行学习的时候,有两种方式,第一种是进行探索式的学习,即勘探学习,第二种是利用经验获取最大的收益进行学习,即开发学习。一个Agent既可以选择当前使得短期收益最大的动作,也可以选择当前非最优的动作但是却有可能在未来获得更大收益的动作,所以RL经常需要在这两种模式之间进行权衡选择。为了决定采取某个决策,强化学习算法的计算复杂度是[Q(|A|+M)],其中[A]表示Agent可以选择的动作的总数,[M]是保存起来的经历过的状态-动作对的数目,而其时间复杂度是[O(|A|·|S|)],其中[S]是状态的总数。一般对于高维度的动作空间与状态空间问题来讲,常规强化学习算法总是低效的。
为了克服这些问题,深度强化学习算法被提了出来。DRL算法一共分为两个阶段,第一阶段是构建深度神经网络(Deep Neural Network,DNN)阶段,第二阶段是深度强化学习阶段。
第一阶段,即利用深度学习(Deep Learning,DL)算法构建深度神经网络,从原始的数据中提取高水平的特征。而DNN包括很多种,可以根据不同的需求构建不同的深度神经网络,例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以生成式对抗网络(Generative Adversarial Network,GAN)等。这些DNN可以自动的分析高维数据下的低维特征表示。
在第二阶段,一般又分为两种算法,一种是基于值函数的DRL算法,另一种是基于梯度策略的DRL算法,如果是利用深度神经网络对RL中奖励值函数进行模拟,那么便是第一种DRL算法,如果是利用深度神经网络模拟策略并利用策略梯度得到最优策略方法,便是第二种DRL算法。
2.2 基于值函数的DRL算法
在普通的RL算法中,对于值函数的学习,一般使用时间差分学习算法[5]与Q学习[6]算法来分别学习状态值函数与动作值函数。在DRL算法中,最开始是利用深度Q网络(Deep Q-Network,DQN)模型进行学习的。DQN是Mnih等人[7]在2013年提出的,DQN对于DRL来讲是非常重要的。在原始的DQN当中,是使用改进后的Q学习算法去学习CNN模型。DQN解决了在RL中,用DNN逼近动作值函数时往往出现不收敛的问题,具体解决方案是使用經验回放机制[8]与目标网络。图1为DQN的训练过程图。
其中经验回放机制通过不断重复使用之前的历史数据,使得数据之间的相关性得到降低,并提高了数据的使用率。在DRL中,DQN的主要作用在于使得算法收敛的同时,形成了端到端的优势,并且可以使用相同的参数以及结构去构建不同的任务。
2.3 基于梯度策略的DRL算法
基于梯度策略的DRL算法主要分为三大类,分别是深度决定性策略梯度[9](Deep Deterministic Policy Gradient, DDPG)、异步优势行动者-评论家[10](Asynchronous Advantage Actor-Critic, A3C)以及信赖域策略优化[11](Trust Region Policy Optimization, TRPO)三大类算法。而这三大类算法中又各自有不同种类的算法。例如,DDPG中包括示范DDPG以及概率代理动作决定性策略梯度算法等,A3C中包括写作A3C以及辅助学习算法等,而TRPO中包括使用广义估计的TRPO算法等。
所谓的策略梯度算法最主要应用在具有连续空间的RL算法中,其大致思想是将策略进行参数化表示,并对动作进行策略梯度的计算,在计算出梯度之后,沿着梯度的方向,不断进行动作的调整,之后得到最优的策略。最常见的策略梯度算法包括AC算法[12]以及Reinforce算法[13]等。
3 深度强化学习的应用
棋类游戏一直是检验计算机是否具有智能的一个非常重要的挑战,也是人工智能当中研究最多的一个项目,往往每一个项目的出台,都会形成新的人工智能的方法或者理论。在2016年3月的时候,谷歌的子公司DeepMind研制出了最新的围棋博弈系统AlphaGo,代表着人工智能在棋类博弈中的又一个里程碑式的应用研究。利用AlphaGo与人类在围棋领域博弈,最终AlphaGo以4比1的成绩战胜了世界围棋冠军李世石[14]。之后在2017年,DeepMind公司将AlphaGo程序进行升级,并与多位世界级顶尖围棋大师进行博弈,均取得了胜利。但是这并非代表着人们已经完全掌握了计算机博弈,因为还存在着不完全信息博弈游戏,这将会带来更加巨大的挑战。
在视频游戏领域中,深度强化学习也有着非常重要的作用。人们经常利用算法构建某种模型,使得计算机在不需要人类帮助的情况下,可以自主的适应视频游戏的规则并且取得较好的成绩。早在2015年,DeepMind公司就在Atari平台上,利用49款视频类游戏对DQN进行了训练,并且发现DQN在其中半数的游戏中均取得了超过人类职业选手75%的成绩[15]。就目前来讲,视频游戏是检验DRL算法最好的试验之一。
随着移动互联网时代的到来,越来越多的人已经离不开手机了。人们往往希望能够通过手机或者类似的移动端快速地搜索到自己想要的内容,并且通过语言或者文本的方式将这些信息告知给客户。而深度强化学习在助理机器人方面也起着不可替代的作用。一般来讲,助理机器人根据关键词进行信息的搜索,之后通过过滤功能将垃圾信息排除掉,将留下的有用的信息告知给客户。所以在助理机器人领域,深度强化学习将起着越来越重要的作用。
4 总结与展望
本文对深度强化学习进行了简要的介绍,包括深度强化学习的基础概念、主要学习算法以及一些应用领域等。深度强化学习现在已经到了高速的发展期,越来越多的研究成果不断被提出来。目前主要是就深度Q网络以及其后续的改进算法已经较为成熟,而且基于策略梯度的算法也已经得到了广泛的应用。但是仍然存在一些问题值得关注。
深度强化学习本身就是模拟人的思维的一种学习算法,但是由于缺乏人类大脑生理学方面的支撑,目前的深度强化学习所能感知到的维度比起人类大脑真正能感知到的高维度还有些许差距。并且目前在深度强化学习当中用到的深度学习模型还只是深度学习当中的一小部分,如何将更多的深度学习模型应用到深度强化学习当中也是一项非常重要的工作。
总之,在工业界,有类似DeepMind这样的公司已经将深度强化学习应用到了游戏、人工智能助理以及医疗领域当中,并且对这些领域的发展提供了重要的帮助。随着人工智能的不断发展,深度强化学习必将会越来越多地影响到对人们的日常生活,并在其中起到重要的作用。
参考文献:
[1] Satija H, Pineau J. Simultaneous machine translation using deep reinforcement learning[C], 2016.
[2] Sallab A, Abdou M, Perot E, et al. Deep Reinforcement Learning framework for Autonomous Driving[J]. Electronic Imaging, 2017, 2017(19): 70-76.
[3] Li J, Monroe W, Ritter A, et al. Deep Reinforcement Learning for Dialogue Generation[J], 2016.
[4] Oh J, Guo X, Lee H, et al. Action-Conditional Video Prediction using Deep Networks in Atari Games[C], 2015: 2863-2871.
[5] Sutton R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1988, 3(1): 9-44.
[6] Watkins C J C H, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3-4): 279-292.
[7] Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.
[8] Long-Ji L. Self-improving reactive agents based on reinforcement learning, planning and teaching[J]. Machine Learning, 1992, 8(3-4): 293-321.
[9] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.
[10] Mnih V, Badia A P, Mirza M, et al. Asynchronous Methods for Deep Reinforcement Learning[J], 2016.
[11] Schulman J, Levine S, Moritz P, et al. Trust Region Policy Optimization[J]. Computer Science, 2015: 1889-1897.
[12] Degris T, Pilarski P M, Sutton R S. Model-Free Reinforcement Learning with Continuous Action in Practice[C], 2012: 2177-2182.
[13] Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3-4): 229-256.
[14] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[15] Volodymyr M, Koray K, David S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529.
上一篇:论文发表选题:基于引文图模型的科研论文智能推荐算法研究
下一篇:论文发表选题:基于数字化排队的旅游景区设施配置与优化
相关文章推荐
主页 > 论文欣赏 >
论文发表参考:深度强化学习概述
2019-05-17 来源:电脑知识与技术 作者:徐松林
Copyright© 2011 - 2019 雅诗论文网© 版权所有 豫ICP备11013941号
客服QQ:308902193 地址:郑州市金水区花园路国基路交叉口居易国际1号楼
客服QQ:308902193 地址:郑州市金水区花园路国基路交叉口居易国际1号楼