Compute Goes Brrr：重温强化学习之父Sutton关于AI的70年惨痛教训

热门文章 2023-02-13 08:04:57 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

computing,computational,compute,computergames翻译

译者：AI研习社（Key）

双语原文链接：Compute Goes Brrr: Revisiting Sutton’s Bitter Lesson for Artificial Intelligence

回顾理查德・萨顿关于AI的惨痛教训

就在不久前的过去，在一个与我们今天相差无几的世界上，在达特茅斯学院，有这样一个雄心勃勃的项目，志在弥合人类与机器智能之间的鸿沟。那是1956年。虽然并不是第一个对思考机器的潜力提出设想的研究项目，但它的确为这个领域取了一个公认的名字（“人工智能”），并建立了由具有影响力的研究者们所组成的一座“万神殿”。在约翰・麦卡锡、马文・闵斯基、克劳德・香农与纳撒尼尔・罗切斯特共同撰写的提案中，作者们的目标虽然仍不成熟，但他们的雄心壮志，即使今天看来也足够奇妙有趣。

（我们）将致力于探索如何让机器使用语言，形成归纳和概念，解决现在只有人类可以涉足的各种问题，并进行自我改良。我们认为，如果一个经过精心挑选的科学家团队在一起工作一个夏天，就可以在其中的一个或多个问题上取得重大进展。――

最初的人工智能

从那时起到现在，关于，经历过车水马龙的盛况，也不乏门可罗雀的冷落。在1956年，盛行的方法包括元胞自动机、控制论（cybernetics）、信息论。随着时间的流逝，专家系统、形式推理、连接主义等方法也轮番亮相，各领风骚。

今日，AI的复兴源于连接主义一脉相承的最新成果――。尽管一些新思想的确也在这个领域造成了相当大的冲击（仅举几例：注意力机制、残差连接、批量归一化），大部分关于建立和的思想，早在上世纪八九十年代就已经被提出。然而今天，AI与AI相关的技术所扮演的角色，却并不是任何在之前的“AI之春”中活跃的研究者所想象的那个样子。例如，几乎没有人能预见到，广告科技（adtech）和算法驱动的新闻供稿的盛行与社会反响。我也很确信，他们中的很多人会为今天的社会如此缺少仿真机器人而感到失望。

约翰・麦卡锡，达特茅斯提案的共同作者，以及“人工智能”一词的发明者。

抱怨过，落实到现实世界的AI技术，总是会变得不那么吸引人，并会逐渐失去“AI”的名字。不过，这并非我们今天所见的现象――也许我们要归咎于风险投资和政府基金，因为是它们鼓励大家去做了截然相反的事情。伦敦风险投资公司MMC的一份显示，在2019年的欧洲，高达40%自称的AI创业公司实际上并不将AI作为它们业务的核心构成部分。

深度学习与AI研究之间的区别

深度学习时代与之前那些AI研究的那些暖春期之间的区别，似乎可以被归结为摩尔定律的S形曲线。许多人将“ImageNet时刻”视为今天AI/ML复兴的起点――一个名叫的模型，以压倒性优势赢得了2012年ImageNet大规模视觉识别挑战赛。AlexNet的结构，与在它20多年前就被提出的并没有很大的差别。

拥有5个卷积层的AlexNet，比拥有3个的LeNet要稍大一些。它总共有8层，而LeNet有7层（其中2层是池化层）。而其中的重大突破，则在于图形处理单元（GPU）以并行处理的方式实现最基础的神经网络运算（卷积与矩阵乘法），以及由李飞飞和她在斯坦福大学的实验室所整理的、兼具规模和质量的。

硬件加速的惨痛教训

硬件加速的存在，在今天的深度学习从业者看来已经是理所当然。它是诸如、、等热门深度学习库不可缺少的部分。深度学习研究者队伍的壮大，和面向AI/ML的商业需求的日益增长，构建了一个，从而推动了良好的硬件支持的形成。而当基于FPGA、ASIC甚至是光子或量子芯片的新型硬件加速器逐渐为人们所用，各类热门学习库的软件支持也自然紧随其后。

ML硬件加速器与其赋予AI研究的更多算力所带来的冲击，被理查德・萨顿简洁地概括在了一篇相（臭）当（名）出（昭）名（著）的短文《》中。文中，萨顿――这位曾（共同）撰写过的的人物――却声称AI研究者们所付出的所有勤奋努力和聪明才华，对于整个大框架几乎没有起到任何推动作用。根据萨顿的说法，当前AI进步的主要驱动者，是日益提升的算力被用于实现我们既有的简单的学习和搜索算法的结果，而其中包含的硬编码的人类知识只是所需的最低水平。而萨顿认为，基于AI的方法应该是尽可能普适的方法，诸如无约束搜索和学习。

不出所料地，许多研究者都对萨顿所说的这个教训有着截然不同的观点。毕竟，他们中的许多人都将毕生心血投入到关于AI的各种技巧和理论基础的研究上，以期推动AI发展的进程。许多AI研究者并不局限于探索如何达到最先进的指标，而是希望学习所谓智能的本质，或更抽象地说，人类在整个宇宙中所扮演的角色。萨顿的表述似乎在支持这样一个令人失望的结论，即：对理论神经科学、数学、认知心理学等学科的探索，对于推动AI的发展是毫无帮助的。

来自的一张梗图。以及。

关于“惨痛教训”的多方质疑

对萨顿的这篇短文，值得关注的一些批评包括了机器人学家罗德尼・布鲁克斯的《》（译注：原文标题为“A Better Lesson”，与萨顿的标题“A Bitter Lesson”仅一字之差），牛津大学计算机科学教授西蒙・怀特森的，以及Shopify的数据科学家凯瑟琳・贝利的一篇。贝利反驳道，虽然萨顿对现代AI领域中那些仅局限于追求指标的课题的论断也许是对的，但这样的短视却完全没有抓住关键。AI研究的终极目标，应该是从可利用的角度去理解智能，而不是对每个特定的指标优化问题都从头训练出一个新模型――这需要付出极大的金钱和精力。贝利认为，现代的机器学习从业者，常常会；研究者们之所以要造出超越人类的下棋机器或围棋机器人，不是为了他们自己，而是因为这些工作对于人类智能的某些方面，可能是至关重要的例证。

布鲁克斯和怀特森则反驳道，萨顿所提及的所有“不涉及人类先验”的例子，实际上都是大量人类智慧的结晶。例如，如果没有卷积层的平移不变性，那么很难想象，深度神经网络可以表现得像今天的（ResNet）一样好。我们也可以发现当前网络仍具有的很多不足，例如不满足旋转不变性或颜色不变性。此外，网络结构和训练细节也十分依赖人类的直觉和智慧。虽然比起人类工程师手动设计的模型，自动化的神经结构搜索（NAS），但NAS算法最初的搜索范围，也是从所有的可能性里大大缩减后得到的――而缩小搜索范围，一直是人类设计者所管辖的领域。

怀特森反驳道，搭建机器学习系统的人类智慧对解决复杂问题而言是必需，而不是阻碍。

对“惨痛教训”发声的批评人士中，也包括不少的研究者。深度学习依旧维持着令人印象深刻的庞大规模，，关于其影响环境的担忧也日益加重。而且，没人能够保证，在未来的某个时刻，深度学习不会撞到一堵难以逾越的南墙――也许很快了。

距离边际收益无法再承受额外的支出，还有多久？深度学习的进步让人吃惊的原因之一，在于模型本身是很难被人们理解的；一个模型的表现，是从具有数以万亿计的参数所构成的复杂系统中突然出现的产物。要预测或分析它们到底能做到什么地步，相当困难。

也许我们所有人都应该认真记住符号人工智能（GOFAI）的经典，由斯图尔格・罗素和彼得・诺维格合著的《人工智能：一种现代方法》里的一课。在书中临近最后一章的结尾，我们发现了以下的警告：在关于AI的研究中，我们偏爱的方法――对我们来说是深度学习――也许就像：

“…爬一棵树就想登上月亮。人们可以一直稳步攀升，直到树顶。”―― 《人工智能：一种现代方法》，斯图尔格・罗素，彼得・诺维格

作者们在这里换了一种方式表述了在1992年所著的《计算机不能做什么》中的一个比喻，而这常常会回到那个月球旅行的树栖策略的比喻。尽管许多原始的智人曾经尝试过这个方法，但实际上，要登上月亮，首先要从树上下来，然后开始为太空计划扎扎实实地做准备。

结果不言自明

尽管这些批评听起来颇有说服力，但它们留给别人的印象，也只比酸葡萄稍微好一点。当学术界还在被知识分子们无法满足的“更多算力”的呼声拖后腿的时候，大型私人研究机构的研究者们马不停蹄地在各种项目里登上头条。而他们在工程上花费的心血，基本上都当中。

而在这方面最臭名昭著的，莫过于OpenAI。

OpenAI在去年从非盈利组织转变为有限合伙企业，而它的核心人员从未掩饰过他们对于海量算力的偏爱。其创始人格雷格・布罗克曼与伊尔亚?苏茨克维，与许多蓬勃成长的公司里的科技人士一样，理查德・萨顿的“惨痛教训”所形容的那样的人。OpenAI为冲刺里程碑所需的大量训练任务，促使相应的基础工程建设成为一大亮点。

OpenAI Five打败了（人类）Dota2世界冠军队伍OG，而它“仅仅”只用了45,000年――即――来进行学习。在10个实时月内，它始终维持着800pefaflop/s-days（pfs-day）的算力。（译注：1pfs-day指一天内可进行约10的20次方次加法或乘法运算）如果以世界最先进的性能功耗比，来计算，其能量消耗甚至超过，即一个正常美国家庭92年的总用电量。

OpenAI的另一个高规格、高消耗的项目，则是他们的，Shadow机器灵巧手项目。该项目的高光时刻，是机器手可以灵巧地解出魔方（虽然选择解法的步骤是由一个确定的求解器完成的）。这一解魔方的项目，是建立在大约之上的。此外，DeepMind与之相当的AlphaStar（，模拟进行了数千年的游戏）或（AlphaGo Zero：）等项目，也需要在计算资源上投入大量开支。

但结果也会对不上

但在“惨痛教训”所描述的潮流以外，也存在着这样一个鲜明的反例：训练游戏智能体的AlphaGo系列，在取得更好的表现的同时，实际上所需的算力反而更少。的确是个很有趣的例子，因为它无法融入“惨痛教训”所提出的框架之内。没错，这个项目一开始确实调用了压倒性的高性能计算资源用于训练：AlphaGo使用了176块GPU，并会在测试阶段消耗4万瓦特的能量。但从AlphaGo到MuZero之间的每一次更新换代，无论在训练阶段还是实际演示阶段，都消耗了更少的能量以及算力。

实际上，在AlphaGo Zero对阵――前深度学习时代最先进的下棋引擎――的时候，它的搜索次数比起StockFish要少得多，也要有针对性得多。虽然AlphGo Zero使用了蒙特卡罗树搜索，但为其“引路”的价值函数却是由一个深度神经网络所确定的。而“鳕鱼”所用的Alpha-beta剪枝搜索法，则有着更广的搜索范围：在每个回合中，“鳕鱼”所考虑的棋盘走位大概是AlphaGo Zero的400倍。

“惨痛教训”应该比针对性方法表现更佳吗？

你应该还记得，无约束搜索是萨顿曾列举的一个普适方法的例子。而如果我们全盘接受“惨痛教训”，那么它的表现应该比一个搜索范围更窄的针对性方法要来得更好。然而在AlphaGo系列的例子里，我们却发现：在每次更新换代（AlphaGo, AlphaGo Zero, AlphaZero, MuZero）之后，新方法比旧方法大体上都表现得更优秀，然而它们的学习和搜索都是更有针对性的。在Muzero中，原先用于搜索的基准真实游戏模拟器，被换成了名字以Alpha开头的所有前辈们。它们都有着一个学习好的深度模型，用于表示游戏状态、游戏的动态数据，并进行预测。

设计一个学习好的游戏模型，所需的人力远超最初的AlphaGo。然而，Muzero却拓展出了更通用的学习能力，在57个Atari游戏上都达到了当前最先进的表现，而之前的那些Alpha模型只学习了象棋、将棋和围棋。Muzero在每个搜索节点上所用的运算量比AlphaZero小了20%，并且也归功于硬件设施的改进，在训练过程中节省了4到5倍的TPU。

（被AlphaGo Zero打败后）被腌制晾干的鳕鱼─.─||。图源为公共领域。

由Deepmind研发的AlphaGo系列游戏机器人，是深度强化学习发展进程中的一个格外精妙的案例。而如果说，AlphaGo的研究队伍能成功地在降低计算需求的同时，还持续实现性能和通用学习能力的提升，这不就直接反驳了“惨痛教训”吗？

若是如此，它又为人们对通用智能的探索展示了什么呢？根据许多人的说法，强化学习是实现通用人工智能（AGI）的一个出色的候选方案，因为它与人和动物面向奖励的学习模式相近。不过，也有其他形式的智能，同样被一部分人认为是通用人工智能的先驱的候选者。

语言模型：大规模模型的王者

萨顿的文章受到新一轮的重视（最近KDNuggets甚至）的一大原因，是OpenAI万众瞩目的语言模型和应用程序接口（API）的发布。GPT-3是一个参数多达1750亿的Transformer，以略超10倍的数量，打破了之前由保持的语言模型规模的记录。GPT-3也比那个“危险得不能发布”的GPT-2大了100倍以上。

GPT-3的发布，是OpenAI的测试版API公告中的一个核心部分。这个API基本允许实验人员使用GPT-3模型（但不能对参数进行微调），并调节一些可以操纵推理过程的超参数。可以理解，那些足够幸运地用上了这个API的测试版用户，抱着极大的激情打开了GPT-3――而也是。实验人员开发了基于文本的游戏、用户界面的生成器、假博客，以及其他许多对这个大型模型的创新性应用。GPT-3的表现比GPT-2有显著性的提高，而其间唯一的主要区别，就是规模。

语言模型规模逐渐扩大的趋势，早在这些巨大的GPT出现之前就存在，并且也不局限于OpenAI的研究。但直到一文引入了第一个Transformer，这一趋势才真正开始快速发展。在不知不觉间，Transformer的参数量已经平稳增长到数以百亿计。假如在一年多之后，就有人提出一个上万亿参数的Transformer，那我也不会感到惊讶。Transformer看起来十分适合拓展到更大的规模，而它的结构也并不局限于面向文本的自然语言处理。Transformer已经被应用于、、生成和等领域。关于Transformer模型所用的注意力机制的可视化解释，参见。

按当前的模型增长速度计算，不出数年，就会有人训练出一个参数量堪比一个人类大脑中的所有神经元突触数量的模型。科幻作品充斥着这样的例子：只要，机器就能获得自我意识和通用智能。这会是Transformer不断增长的终点吗？

关于AI未来的答案，介于两个极端之间

（图片文字：只有杰出的研究科学家才会以极端的方式行事！）

巨大的Transformer自然有着令人印象深刻的表现，而这一随着规模而递进的发展趋势，也符合“惨痛教训”所述。然而，将所有关于AI的工作都归为关于规模化的工作，是既不得体也不能令人满意的。此外，随之而来的能源需求也引起了人们的担忧。云端训练，将许多大实验室的研究者与低效的训练过程相隔离。但在一间小办公室或小公寓里运行深度学习实验的人们，则会身陷热浪之中。这热浪从他们的工作台背后不断冒出，一直提醒着他们（这训练是多么消耗能量）。

的理查德・萨顿的

（图片文字：结束了，学者们，我有算力！）

以超参数搜索和架构搜索训练一个庞大的NLP Transformer的碳排放量，可以轻易超过一个的所有成员进行所有其他活动所产生的总排放量。

我们知道，智能体是可以在持续以20瓦特（以及额外用于机体运转的80瓦特）运行的“硬件”上运行的。如果你对此抱有怀疑，那么你应该在自己的双耳之间找到这一存在的证据。而与之相反的是，用于训练OpenAI Five的能量消耗，却比一个人类玩家，足以支撑他90年的寿命。

一个细心的观察者会指出，一个人类大脑所需的20瓦特的能量消耗，并不代表整个学习算法的总消耗。然而，它的架构和运行规则，也是一个运行长达40亿年的漫长的黑箱优化过程――其名为“进化”――所得到的结果。如果将所有人类祖先的全部能量消耗一并加总，也许人类和机器游戏玩家之间的对比可以显得更有意义些。即便如此，在模型架构和训练算法上的一切进步，与纯粹的通用随机搜索仍然相差甚远。但在机器智能上由人类驱动的进步，当然比动物界之中

dota2ob内战omg胜率 dota2s5总决赛ob

dota2 duobao 战队,dota2OB,dota2内战王,dota2OMG吧

DOTA2的人工智能OpenAI自从击败了Ti8冠军OG战队之后，很多玩家都表示是OG战队太菜了，并不是OpenAI强。而OpenAI的团队也是联合DOTA2的官方发布了一则挑战令，而挑战的内容则是OpenAI本身，玩家们可以在官方网站报名挑战OpenAI。当然还有一个重头戏，那就是OB战队挑战OpenAI。究竟是OB能取得胜利呢，还是OpenAI能继续保持高胜率呢？

OpenAI这边选择了毒龙飞机的双核心，三号位则是SA，酱油选择了巫医和Lion的组合。而OB这边则是拿到了火枪手、斯温还有电魂的三核心，而酱油则是潮汐猎人和冰女。OB这套阵容主要是想和OpenAI打后期。

前期YYF在上路频繁击杀飞机，OB战队的形势一片大好，而中路的对决则是HAO对战毒龙，而下路则是zhou神的电魂对战。而前期依靠龙神的潮汐还有宝哥的冰女，OpenAI的飞机根本没有办法混线，直接和自己的辅助巫医被击杀数次。而中路则是互相击杀的节奏，下路的雕哥则是被频繁击杀，总体来说OB前期略有优势，主要是这个阵容拖到后期对OB有优势，但唯一的隐患就是毒龙比较肥。而AI自知现阶段打不过OB，也是和OB也开始了对发育节奏。

16分钟，OpenAI埋伏Hao的火枪手，将其击杀之后，顺势想越塔强杀，但是被OB三人一波精彩配合团灭。21分钟，OpenAI上路选择推进，而在二塔处，OB战队的支援不统一，结果被击杀五人。27分钟，OB下路推进，本来是一波团灭OpenAI，但是火枪手后排被切，导致这波OB小亏。30分钟，Hao再次被击杀，之后OB深入敌阵，被击杀四人。接着被迫两路。35分钟，OB拼死一搏，但是无奈OpenAI的先手过于迅速，最后OB再次被团灭，三路险些告破。最后OB稍作抵抗，选择了投降。

目前看来，OpenAI的水平还是要高于很多职业队甚至半职业队伍的，当然我们对于OpenAI这些日子的进步感到惊奇，毕竟在去年8月份的时候，OpenAI还是被各种解说队伍蹂躏的存在，而现如今人工智能在DOTA2项目上已经能击败职业战队了，或许在未来，OpenAI能带给我们更多的奇迹。

deeprt绠楁硶 deep learning绠楁硶浠嬬粛

深层强化学习(deep RL)近年来在人工智能方面取得了令人瞩目的进步，先来看一个强化学习被应用在教电脑来控制模拟器中的机器人，直观感受一下Deep RL能做什么。

上面动图是用RL来学习控制一个机器人，需要在球场上去找红色的球，然后会有白色的球一直攻击他，机器人被打倒以后就要自己学着站起来。

李宏毅老师有一个很形象的比喻，说这个demo是人生，人生中有很多的目标（红球），先是念完高中就轻松了，念完大学就轻松了，然后说找到好工作就轻松了，或者财富自由就轻松了，但是一直都没有很轻松，目标一直在前面，然后会遇到生命中无情的打击，打到你没有办法站起来，但是你还是要挣扎的站起来。

然后上面图用到的算法是PPO，这个算法目前是使用得比较多的RL算法，下面会有详细的介绍。

强化学习定义

维基百科版本：

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

大白话讲就是，通过多年的经验累积，知道了摸鱼会被老板骂，勤奋会被老板夸，因此为了获得最大利益，就会选择勤奋的行为。

强化学习又称再励学习、评价学习或增强学习。

强化学习的位置

最大的圈是人工智能，其中涵盖了非常多的领域，其内为机器学习，机器学习包括了很多内容，例如支持向量机，关联规则等，也包括了我们熟悉的监督学习、无监督学习、强化学习，而深度学习和强化学习的这部分是本文着重要讲的部分。

从上面的图可以看出，强化学习属于机器学习内的一个领域，与监督学习、无监督学习无交集。

强化学习和监督学习的区别：

目标：监督学习在于最小化输出和标签误差；强化学习在于最大化行为序列下的长期收益

数据：监督学习中，已经有了数据和数据对应的正确标签；强化学习一开始并无数据和标签，需要通过一次次在环境中进行尝试，获取这些数据和标签。

交互：监督学习没有与环境的交互-反馈过程，是基于数据的学习；而强化学习有与环境交互和改变环境的能力。

强化学习的地位：

Russell 和 Norvig 的人工智能教科书指出：“也许可以认为强化学习包含了一切人工智能：放置在环境中的智能体必须学习以便在其中成功地行事“。

而 David Silver 博士也提出：AI=RL + DL（人工智能=强化学习+深度学习）。

接下来从下面五个方面来介绍Deep RL

一、RL发展历史

二、RL概念梳理

三、RL算法梳理

四、RL相关框架

五、RL的应用

早在五十、六十年代就已经有强化学习的概念了，而再八十年代Q-learning就已经被提出，但是和深度学习的结合，是在2013年才是正式的开端。

1954年Minsky首次提出“强化”和“强化学习”的概念和术语

1957年Bellman提出了动态规划方法

Bellman提出了动态规划方法，用于求解最优控制问题及最优控制问题的随机离散版本马尔可夫决策过程，该方法的求解采用了类似强化学习试错迭代求解机制。

这个方法只是采用了强化学习的思想求解马尔可夫决策过程，但是让马尔可夫决策过程称为定义强化学习的最普遍的形式。

因此很多研究者都认为强化学习起源于Bellman的动态规划。

1989年Watkins 提出Q-learning 算法

Q-learning使得在知道了最终回报和转换函数函数的知识下求出最优动作策略，使得强化学习不再依赖于问题模型。

Watkins还证明了当系统是确定性的马尔可夫决策过程，并且回报是有限的情况下，强化学习是收敛的，也即一定可以求出最优解。

至今，Q学习已经成为最广泛使用的强化学习方法。

此后一段时间，强化学习被监督学习的光芒所遮掩，进入缓慢发展阶段。

2013年深度学习和强化学习结合的真正成功的开端--DQN

事件：DeepMind在NIPS 2013上发表的Playing Atari with Deep Reinforcement Learning

（DeepMind公司: DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMindTechnologies Limited），在2014年被谷歌收购）

方法：论文中主体利用卷积神经网络直接从感应器输入提取高维度特征，然后用强化学习算法（Q-learning的一种变体）学习控制策略。这种学习模型结合了卷积神经网络和Q-learning，称为Deep Q-Learning，相应的网络称为Deep Q Network（DQN）。

应用：训练好的强化学习主体在七个Atari 2600游戏中测试，在六个游戏中的表现超过了所有以前的方法，在三个游戏中超过人类专家水平。

Breakout游戏上的表现：DeepMind的AI玩Breakout的成绩，是专业人类玩家能达到的最好成绩的十倍以上。具体来说在训练120分钟后，它就可以像专家一样玩atari游戏，训练240分钟后，就可以玩出花样来了。

在此次与深度学习结合之前，强化学习需要将所有状态和行为列出来，进行行为决策，达到最高收益，而该游戏的状态可以说是非常多，DQN通过深度神经网络，巧妙地解决了状态维数爆炸的问题。当时引起了很强的轰动。

发展意义：DQN 用于单玩家游戏和广义上的单智能体控制。DQN 为当前的深度强化学习普及浪潮掀起了最初的浪花。

具体为什么要提出DQN，其优缺点，见下面的介绍。

论文：Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

2015年DQN改进版本

事件：DeepMind在Nature上发表了DQN的改进版本

方法：使用经验回放（Experience Replay）以及增加一个目标网络（Target Network），改善了原始DQN在实际训练中不稳定的问题

论文：Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.

2015年OpenAI公司成立，发布OpenAI Gym平台

事件：OpenAI gym 是当前使用最为广泛的用于研究强化学习的工具箱。具体信息在最后的框架介绍中有详细介绍。

2016年强化学习应用在Robotics上

事件：UC Berkeley发表了深度强化学习应用在Robotics的论文

论文：Levine, S., Finn, C., Darrell, T., & Abbeel, P. (2016). End-to-end training of deep visuomotor policies. Journal of Machine Learning Research, 17(39), 1-40.

2015年10月AlphaGo横空出世

事件：Google（DeepMind）在Nature上最新发表了论文AlphaGo

方法：利用蒙特卡罗树搜索方法（Monte-Carlo Tree Search）训练神经网络，结合人类专家棋谱的监督学习和自我对弈的强化学习进行训练

AlphaGo 的训练需要成千上万份人类对弈的棋局数据

成就：

AlphaGo与其他Go程序对弈时达到99.8%的胜率，以5:0赢了欧洲围棋冠军樊麾
AlphaGo 2016年3月在韩国首尔，AlphaGo与18次获得世界围棋冠军的围棋天才李世石进行了一场举世瞩目的对弈，最终AlphaGo以4:1赢得比赛的胜利
2017年5月以3:0击败中国排名第一的职业九段棋手柯洁

发展意义：AlphaGo 可用于双玩家完美信息零和博弈。AlphaGo 在一个非常艰难的问题上取得了现象级的重大成果，成为了人工智能领域的一大里程碑。

零和博弈的意思是：在这个环境中，获胜的一方和失败一方的收益或损失是相互抵销的。只要这结果集中任何一个结果双防的得失不相等，都不是零和博弈。换言之，零和博弈不可能做到“双赢”，一定会有个你输我赢。

完美游戏：如果所有的参与者，在游戏的任何阶段都可以访问所有关于游戏（包括对手）状态及其可能延续的信息，那么称这类游戏为完美信息游戏；否则称为不完美信息游戏。围棋、象棋等棋类游戏，对局双方可以看到局面的所有信息，属于完美信息游戏；而扑克、桥牌、麻将等游戏，虽然每个参与者都能看到对手打过的牌，但并不知道对手的手牌和游戏的底牌，也就是说各个对局者所掌握的信息是不对称的，因此属于不完美信息游戏。

难度：围棋是中国创造的，距今有四五千年的历史，作为中国历史最久远的游戏之一，其复杂与高深程度是一般游戏难以比拟的。围棋每一步有200中落子方式，如果要推演围棋可能出现的状况，要让全世界的电脑运作一百万年才能计算完全。

具体而言可以看这张图：

状态空间复杂度（State-Space Complexity，SSC）：指从游戏的初始状态开始，可以达到的所有符合规则的状态的总数。一种最常用的估计方法是通过包含一些不符合规则或不可能在游戏中出现的状态, 从而计算出状态空间大小的一个上界（Upper Bound）。围棋中计算所有棋盘状态，每个位置可以放置白子或黑子或者空置，围棋盘是方形的，由纵横各19条线组成。19w19形成了361个交叉点，状态空间复杂度约为10^172 (即3^361≈10^172)。

游戏树复杂度（Game-Tree Complexity，GTC）：表示某个游戏的所有不同游戏路径的数目。游戏树复杂度比状态空间复杂度要大得多，因为同一个状态可以对应于不同的博弈顺序。常用的方法是估计其合理的下界：GTC≥b^p，其中 b 表示玩家每回合可用的平均合法移动数目，p 表示平均游戏长度。围棋是10^360 (即250^150≈10^360)

参考：（哪类游戏AI难度更高？用数学方法来分析一下）

零和博弈：

相关纪录片：《AlphaGo世纪对决》

论文：Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.

2016年并行式的深度强化学习（A3C）提出

事件：Volodymyr Mnih等提出并行式的深度强化学习（A3C），在多数Atari游戏学习中胜出

论文：Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., ... & Kavukcuoglu, K. (2016, June). Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning (pp. 1928-1937).

2017年1月 DeepStack击败德扑职业玩家

事件：卡耐基梅隆大学和阿尔伯特大学相继发布了Libratus 和 DeepStack，在两人无限注德州扑克上成功击败了世界顶级人类玩家。

DeepStack是加拿大阿尔伯特大学开发的人工智能系统。是世界上第一个在“一对一无限注德州扑克” 上击败了职业扑克玩家的计算机程序

扑克不同于棋盘游戏的关键之处在于其增加了复杂性：玩家必须在信息不完全的前提下，算出对手的策略。他们必须考虑对手手中会有什么牌以及对手会如何根据之前下的注猜测自己。

这种「不完美信息（imperfect information）」类博弈能反应真实生活我们的问题解决场景，诸如拍卖以及金融谈判，扑克也成为这些场景的人工智能测试平台。

算法已经破解了更加简单的扑克形式：2015 年，该阿尔伯塔大学团队就已经解决了有限双人扑克难题。DeepStack 和 Libratus 玩的仍然是双人博弈，但却是无限制规则，对于人工智能来说，这个挑战会困难得多。

复杂度：

信息集：把每组无法区分的游戏状态称为一个信息集。信息集的数目反映了不完美信息游戏中所有可能的决策节点的数目

信息集的平均大小：在信息集中平均有多少不可区分的游戏状态。信息集的平均大小则反映了游戏中每个局面背后隐藏信息的数量。

信息集平均大小越大，其中包含的未知信息就越多，因此决策的难度就越高。桥牌和麻将由于是每个玩家手里可以有13张未知的手牌，因此隐藏信息的数量远远超过了德州扑克。

发展意义：DeepStack 针对的是双玩家不完美信息零和博弈，这一类问题本身是很难解决的。与 AlphaGo 类似，DeepStack/Libratus 也在一个困难问题上取得了重大的进展，成为了人工智能的发展里程碑。

论文：DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker