Kinds of Intelligence:AlphaZero 成全场焦点,认知科学大牛唱反调
Kinds of Intelligence 主要讨论了实现智能的多种途径,吸引了众多参会者前来。不少生物界、心理学界和认知科学界的专家分享了人工智能以外的研究。
DeepMind 的 CEO Demis Hassabis 也是此次研讨会的嘉宾。Hassabis 上台时,现场雷动。偌大的会议大厅座无虚席,连走道上都是参会者,逼得保安不得不过来安排下秩序。学术圈的大会热捧工业界的新星,也只有 DeepMind 能享受这番待遇。
Demis Hassabis
周二,DeepMind 公布了其围棋程序的最新迭代 AlphaZero。和 AlphaGo Zero 一样,AlphaZero 不需要人类的知识,完全靠自我对弈的强化学习,从零开始。不同的是,AlphaZero 拥有更强大的泛化能力,经过不到 24 小时的训练后,Alpha Zero 可以在国际象棋和日本将棋上击败目前业内顶尖的 AI 程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 AlphaGo Zero。
Hassabis 先介绍了 DeepMind 和 AlphaGo 的发展历程,然后着重介绍了 AlphaZero 是怎么从围棋泛化到国象和日本将棋上。
目前最前沿的国象 AI 程序依然使用 Alpha-Beta 搜索和启发算法。2016 年 TCEC 世界冠军 Stockfish 是这个领域最好的 AI 程序,但 Stockfish 依然需要大量手动调整,包括棋局表征、搜索、落子顺序、评估以及残局库。AlphaZero 呢?只需要基于自我对弈强化学习加自我对弈蒙特卡洛树搜索即可。同时,AlphaZero 可以完全在这三种不同的棋类游戏中泛化,三种棋类背后的算法和超参数完全相同。
AlphaZero 的战绩是显著的:对阵国象 AI 程序 Stockfish 是 28 胜 72 平 0 负;对阵将棋顶尖程序 Elmo 是 90 胜 2 平 8 负;对阵训练三天的 AlphaGo Zero 是 60 胜 40 负。
Hassabis 提到了有关 AlphaZero 的几个有趣的事实:下棋的每个决定都需要一定的搜索量。人类一般是 10 次,目前最先进的国象程序是 1000 万次,AlphaZero 则是 10000 次,介于两者之间;AlphaZero 下国象中,摒弃了许多人类的招数,比如 Kings Indian Defence、French Defence 和 Queen Pawn Game,这三种都是很常见的国象开局方式;AlphaZero 偏爱长期位置牺牲(long-term positional sacrifices),为了最后的赢面在前期牺牲掉部分棋子。
拥有更好泛化能力的 AlphaZero 让很多人相信人类离通用人工智能(AGI)又近了一步。然而,其他几位受邀嘉宾并不买账。东海岸的两位认知科学大牛——纽约大学的 Gary Marcus 和来自麻省理工大学的 Josh Tenenbaum 都不认为 AlphaZero 代表了 AGI 的研究方向。
Tenenbaum 认为智能不仅仅是将一个公式计算地特别好,而是思考到底解决什么样的问题。他提出了一个非常有意思的想法:建造一个像小孩子一样学习的机器。
Tenenbaum 向观众展示了一个视频:一个小孩看到大人双手捧着书,在一个关着门的书橱前踱步,小孩很自觉地走上前把门打开。这样的理解能力和操作能力,是机器做不到的。要建造这样的机器,需要三个步骤:建立一个具备常识的核心;用这个核心学习语言;用语言学习任何东西。
之后登场的 Marcus,更是圈内有名的「辩论手」(详细参见他十月和 Yann LeCun 的争论)。此次演讲,他还专门为了 AlphaZero 做了篇 PPT:AlphaZero 只适用于完美信息的游戏博弈,但并不适合通用人工智能。
Marcus 提出了一个有关「认知」的公式:Cognition=f(a, k ,e),其中 a 代表先天的算法,k 代表先天知识,e 代表经验。这个公式同样可以适用于 AlphaZero。完美信息棋盘博弈获得成功的条件是棋盘规则+经过人类编程的棋局表征,a 则是强化学习+蒙特卡洛树搜索+基于经验得到的超参数,即使没有了先天知识 k,AlphaZero 同样获得了成功。
但无论是围棋、将棋、国象,都和生活是不一样的:棋局是完美信息,但生活是不完美信息;棋局可以被完美模拟,生活却不可能;棋局里可以有无限的数据,而生活里的每个事物的数据量都不多;棋局里唯一要紧的是盘面状态,但生活中,什么都有要紧。
所以,在一个开放的世界里,先天的算法和先天的知识需求量都会增加,就不是 AlphaZero 可以应付的了。
Marcus 从 DeepMind 中得到的另一个结果是,即使是在完美信息的游戏中,一些先天的结构依然不可缺少,比如蒙特卡洛树算法。所以,他强调 AlphaGo Zero 以及 AlphaZero 不是所谓的「零知识」。这里的「零知识」只针对专有领域知识(domain knowledge),不包括像蒙特卡洛树搜索这样经过人类多年研究的算法。
最后,越说越激动的 Marcus 大声疾呼:「生活不是一场 Kaggle 竞赛!」
「在生活中,没有东西是被整齐的预先包装好的(像 Kaggle 里的数据集那样),没有人能保证你昨天的挑战和今天的挑战一样,你希望学习的是可以重复使用的技能和知识,并且可以用在未来的挑战里,而实现这种可重用性才应该是大家关注的重点。」
除了有关 AlphaZero 的争论外,这场研讨会也提供了其他研究人工智能的思路。
来自加州伯克利大学心理学和哲学教授 Alison Gopnik 倡导将儿童的学习方法与人工智能相结合。Gopnik 是第一位将概率模型应用于儿童学习的认知科学家,特别是使用因果贝叶斯网络框架。在过去的 15 年中,她将计算模型应用于早期认知发展的许多领域,包括物理和社会概念的学习。
阿兰图灵在 1950 年就说过,「与其尝试模拟成人的大脑,为什么不直接创造一个模拟小孩的大脑。」Gopnik 在研究中发现,一个四岁的小孩可以理性地从条件概率推断复杂的因果结构;在面对新证据后,会整合和推翻先前的知识;推断出未观察过的结构;推断出抽象的分层超假设;在物理、生物和心理学领域推断出理论知识。
近几年,越来越多的研究人员发现年纪小的孩子更具有探索性。Gopnik 总结了小孩子的学习特点,除了奖励机制外还具有很强的求知欲,这些发现都对人工智能研究带来了一些新的方向和思考。
Interpretable Machine Learning :一场关于机器学习可解释性的辩论
从左到右:Patrice Simard、Kilian Weinberger、Yann LeCun
近年来,复杂的机器学习模型(如深度神经网络)在图像识别、语音感知、语言建模和信息检索等广泛的应用方面取得了出色的性能。人们对解释由这些模型习得的表征及决策的兴趣逐渐增加,也催生了在可解释机器学习、因果关系、安全 AI、社会科学、自动科学发现、人机交互(HCI)、众包、机器教学和 AI 道德等方面的研究。这场可解释机器学习的研讨会的目的在于将这些密切相关但往往被孤立的主题联系在一起。
可解释的机器学习,使我们可以参考模型的预测结果,还有可能通过理解模型的结构更好地理解命题本身,例如犯罪预测及公共政策制定等;同时,理解模型本身又可以让我们可以建立更准确的预测模型;在自动驾驶等领域,我们需要超越现在的「黑箱模型」的可解释模型来避免罕见但代价惨重的错误。
NIPS 可解释机器学习研讨会包含 6 个演讲,以及两场讨论,并公开宣布了一场「可解释挑战赛」。(https://community.fico.com/community/xml)。
上半场的演讲主要就如何进行可解释机器学习研究的方法展开,两位演讲者介绍了因果概率关系,以及一种结合物体检测和 CNN 图像特征,生成可理解的物体图像内容。
可解释挑战赛公布之后进行的第一场小组讨论以十分平和的方式展开,Hanna Wallach、Kiri Wagstaff、Suchi Saria、Bolei Zhou 和 Zack Lipton 探讨了在进行可解释研究中常见的问题,以及需要注意的事项,有趣的是在讨论的最后,嘉宾们达成了一致,「明确需要进行解释的对象」非常重要。
在 NIPS 2017 第四日下午的可解释机器学习专题研讨会的最后一个小时,一场辩论点爆了现场的气氛,并吸引了大量的参会人员现场围观。毋庸置疑,这是第四天的 Symposium 中最火爆的一场。
这场 NIPS 有史以来第一场辩论的主题为「可解释性在机器学习中是必要的」(Interpretable is necessary in machine learning)。
正方一辩:微软研究院杰出工程师 Patrice Simard
正方二辩:微软研究院高级研究员 Rich Caruana
反方一辩:Facebook 人工智能研究部门 (FAIR) 负责人 Yann LeCun
反方二辩:康奈尔大学副教授 Kilian Weinberger
本次辩论由正反方分别陈述各自观点拉开序幕:
正方一辩 Rich Caruana 观点陈述:
Caruana 举了一个例子:医院用深度神经网络来决定肺炎病人的住院顺序,死亡率高的优先入院。但是,模型通过某项数据发现,患哮喘的人肺炎的死亡率比较低,因为他们经常会去医院配药、做诊断等等,所以很多病情发现的早。那么按照这个模型的设定,同样患肺炎的人,患哮喘的人是不是应该排在队伍的后面。
Caruana 想用这个例子说明,社会中很多基于数据的模型做决定,但往往没有正确地评估这个模型是否预测出正确的结果。解决的方法有,就是可解释模型。通过在可解释机器学习上的研究,他们发现不只是哮喘,心脏病也会降低肺炎病人的死亡率,道理是一样的。如果不解决可解释性,根本无法预料这些问题的存在。
反方一辩 Yann LeCun 观点陈述:
LeCun 的观点非常直接:世界上有这么多应用、网站,你每天用 Facebook、Google 的时候,你也没有想着要寻求它们背后的可解释性。人类的大脑有限,我们没有那么多脑容量去研究所有东西的可解释性。有些东西是需要解释的,比如法律,但大多数情况,它们没有你想象中那么重要。
LeCun 也举了个例子:他多年前和一群经济学家做了一个模型预测房价。第一个用的简单的线性预测模型,经济学家也能解释清楚其中的原理;第二个用的是复杂的神经网络,但是效果比第一个好上不少。最后,当这群经济学家想要做预测房价的公司时,你猜他们会选择哪一个?
LeCun 表示,任何时候在这两种里做选择,绝大多数人都会选择效果好的那一个。很多年里,我们不知道药物里有什么成分,我们一直在用。最后,LeCun 认为,整个有关神经网络是黑箱的故事,事实上,你可以看到,它并不是黑箱,你可以看到所有的参数,你可以做灵敏度分析。我们常常被解释性所催眠,因为它让我们放心。
正方一辩 Patrice Simard 观点陈述:
Simard 的主要意思是说到机器学习,就应该有一个准确的定义。机器学习的作用是从坏的函数中找到好的函数,我们可以把这个好函数的集合称为假设空间(hypothesis space)。很多人觉得深度学习的假设空间是固定的,但假设空间可以变得非常非常大(因为我们可以定义无限多的问题)。在我们逐步学习了文字,学习语言,学习了各种各样的东西的过程中,假设空间也在不断增加,这种小的积累过程让学习变的更容易,这可以被称为结构可解释性。
Simard 的观点是,不关心可解释性的人应该停止来 NIPS 大会解释最新的假设空间。而关心解释性的人可以记录假设空间的进化,让学习变得可以被解释,变得更容易。
反方二辩 Kilian Weinberger 观点陈述:
在现实中,可解释性并没有那么重要。人人都在用很复杂的东西,比如很少有人能够完全理解英特尔的 i7 芯片的工作原理,但大家都很自然地用,而且很好用。机器学习也是这样。在一些情况下人们需要可解释性:一个是需要了解数据,神经科学家和生物学家需要进行研究,但他们其实需要的是敏感性分析 (sensitivity analysis)。他们只是需要知道什么特征会如何影响输出结果。另一个是机器学习 debugging,但这个并不会帮助人们理解机器学习是如何运作的。最后一个是可靠性 (accountability)。不懂的人关心可解释性是因为信任度 (trust),正如 80 年代时人们发现乘坐的是女飞行员驾驶的飞机时会下飞机。30 年之后,人们也会觉得害怕自动驾驶汽车的人是很奇怪的。
Kilian 问现场听众一个问题——假设你要做心脏病手术:医生做手术有 10% 的死亡率;而手术机器人只有 1% 的死亡率。当医生出错时,医生可以理解自己犯了什么错而机器不会。这种情况下,是选让医生动手术还是手术机器人?不出所料,大部分现场听众都选择了使用手术机器人。
在正反双方进行完观点陈述后,辩论进入第二个环节:正反双方互相答辩。双方就各自的观点进行了充分且辩证的讨论,双方探讨内容包括但不局限于,因果关系概率的重要性、测试的可靠性问题、结果可复制性问题等。
在辩论的最后一个环节,每位选手要求对对方辩题陈述一个自己认为最好的观点:
Yann LeCun:在机器拥有意识之前,机器会一直犯错。在对部署系统进行测试的时候尤其需要注意,不能忽略常识相关的测试场景。
Patrice Simard:过去神经网络不好用是因为数据不够多,但越来越多的数据会让模型的各种性能,包括可解释性也变得更好。
Kilian Weinberger:当人看到机器学习算法进行决策的时候,我们会用人的思维去理解机器;可解释性可以让我们理解机器的运转方式与人不一样。
Rich Caruana :人们介意的是准确度,而并不是很介意是否可以解释,可能只有科学家会为了完善理论而倾向可解释的模型。
Meta Learning:四大门派的观点冲突和 Schmidhuber 的骄傲
Meta-learning 专题研讨会开始于对当前深度学习模型复杂度的探讨:超参数的调试与网络结构直接决定了训练的最终效果,但是这两部分的选择随着深度学习的发展变得愈加繁重。想象一下从相对简单的 5 层 LeNet 到异常复杂的 GoogleNet,虽然模型的结果得到了令人惊讶的提升,但是其复杂的程度不再是几个工程师或是学者可以轻易接受的。Meta-learning 正是对这样的关键问题进行的研究,尽管目前学界并未在 Meta-learning 的定义上达成一致,但是无论从何种角度出发最终的目标均是一致的:成熟的 Meta-learning 方法可以减轻工程师和学者在应用与研究过程中对模型调试的压力,从而将精力集中在解决主要问题上。本次研讨会从以下 4 个角度出发,对未来 Meta-learning 的发展进行探讨。
Evolving Optimization 主张学习算法的结构是最为重要的研究方向,因此这一流派认为对于任意的学习问题,主要的学习框架应由人来构建,而其余的任务则交给计算机来完成。事实上,当我们回顾所有成熟的工程问题时,我们会发现人们在解决这些问题时只需要将时间与精力投入在高层次的框架设计上,其中的细节均由计算机依照优化的目标迭代设计。为什么在机器学习的问题上我们还不能达到这样的程度呢?被广泛接受的说法是通用的机器学习算法的搜索空间巨大,在有限的时间与资源下难以寻找到最优的方法。正是针对这一问题,Evolving 流派认为从遗传的角度来寻找构建 Meta-learning 系统是合适的。
Bayesian Optimization 认为在学习过程中 (Hyperparameters) 对超参数的调整效率是极低的,且代价是极为昂贵的。考虑 (Model Selection) 模型选择的问题,研究者根据有限的数据反复尝试不同的参数组合去选择在当前数据集支撑下的最优模型,如果不考虑根据常识经验得到的通用设置,得到最优解的时间显然是随着超参数数目指数级增加的。通过 Bayesian Optimization 的方法,同时进行 exploration 和 exploitation,寻找最优参数的过程将有可能得到加速。值得一提的是,使用 Bayesian Optimizaiton 理念的 AutoNet 工具包是第一个在深度学习竞赛中获胜的 AutoML 工具包。
Gradient Descent 方面认为 Meta-learning 可以有三种方法实现: 1> Model Based、2> Metric based、3> Optimization Based。在目前的研究中,这三种方法并没有优劣之分,各有千秋。同时,优秀的学习被定义为成功地融合学习算法结构、优化学习所需要的数据以及优化方法的细节,缺少任一项学习的效果均会大打折扣。Meta-learning 应当被定义为从通用的学习目标开始,收到特定的(设计好的)影响后逐渐变为专精的学习过程。而真正的端到端学习则是机器具有能力计算并学习任意的模型,从而有目的地解决不同问题。
Reinforcement Learning 认为在学习中要解决特定的问题,则必须在学习之前获得足够正确的先验知识。这一点明显的反映在奖励函数 (Reward Function) 的设计上,一旦奖励函数被正确的设计,整个学习过程并不需要过多的人为干预。于是,能否正确的建立关于学习的模型成为了 Meta-learning 的关键。设计奖励函数的做法,往往也被称为引入 inductive bias,即将人为的经验加入到机器的学习过程中从而加速学习正确目标的过程。然而,这种做法的正确性也得到了讨论:往往人为设计的奖励函数仅考虑到与目标的契合,而忽略了与 agent 行为的一致性。这种失配被称为 Preferences-Parameters Confound。
显然,这四个角度对于 Meta-learning 的理解各有侧重,甚至存在不少冲突的观点。在 Juergen Schmidhuber 教授的演讲中,他针对真正的端到端学习给出了自己的定义。而在接下来 Satinder Singh 教授的演讲中,Singh 教授直言不讳,划掉了 PPT 中的 Meta-learning 字样:看过刚刚 Schmidhuber 教授的演讲,我自觉不足以在这里讨论 Meta-learning 的话题,接下来只侧重 Reinforcement Learning。由此可见对于这样仍然未被完全定义的领域中,不同的学者对于 Meta-learning 的看法有多么大的分歧。当然,正是这样的分歧与争论不断推动着 Meta-learning 向前发展。
Juergen Schmidhuber
Deep Reinforcement Learning - DRL 的泛化之路
自从 AlphaGo 在 2016 年、2017 年战胜了李世乭和柯洁后,深度强化学习受到了越来越多的关注。本次 NIPS 大会期间,DeepMind 公布的 AlphaZero 更是让深度强化学习的分享备受期待。
第一位演讲者是来自 Google DeepMind 的 David Silver,演讲题目「AlphaZero - 不用人类知识来驾驭棋类比赛」。David Silver 是伦敦大学学院的计算机科学教授,目前在 Google DeepMind 任职,是 Alpha 系列程序的核心研究者。
在演讲中,他首先介绍了围棋的特点,强调围棋比起其他棋类可以有更多的变化。然后话锋一转进入演讲的主角 Alpha 系列的发展。作为第一个击败人类世界冠军的程序,AlphaGo 包含两个不同的神经网络:策略网络和价值网络,再结合著名的蒙特卡洛树搜索来完成训练。同 AlphaGo 相比,它的迭代版本 AlphaGo Zero 采用了第一法则学习原理。该方法相比之前主要有如下四个特点:1. 无人类数据;2. 无人工特征; 3. 单独的神经网络; 4. 简单搜索。可以看出比起上一代 AlphaGo Zero 有了相当程度的简化,此时演讲者指出了他的重要观点:越简单,越广泛(Less complexity → More generality)。接着 Silver 介绍了 AlphaGo Zero 的两种新的神经网络,其中策略网络用来预测围棋如何下子,而价值网络负责预测获胜者,二者的合成被应用在 ResNet 上。至于新的搜索方法,在 AlphaGo 中主要采用 Search-based policy improvement 和 Search-based policy evaluation 两个角度来完成强化学中的 Search-based policy 迭代。
在对原理有了大概的介绍后,Silver 作了 AlphaGo Zero 与之前版本的性能对比。其中 AlphaGo Zero 三天可以超过 AlphaGo Lee,21 天可以超过 AlphaGo Master,在 40 天的训练后就可以击败世界冠军。在训练过程中研究者发现一个有趣的现象,AlphaGo 好像逐渐学会了一些特定棋谱,并热衷于把它们应用于比赛。
接下来,最新的版本 AlphaZero 让棋类比赛更加简单。AlphaZero 通过 200 到 400 次不等的迭代就已经可以分别在国际象棋(Chess),将棋(Shogi),和围棋(Go)中击败现有最强的棋类算法。其中象棋需要 4 小时,将棋需要 2 小时,击败 AlphaGo Lee 仅仅需要 8 小时训练。AlphaZero 的具体信息虽然这次并没有透露,但其强大的能力让我们对深度强化学习多了一份期待。最后演讲者再次点题,坚持简单的算法可以应用于更多的场景。
之后的提问环节,有观众对完全没有人类知识表示不解。这里 Silver 给出解释,在模型的输入信息中除了包含规则外还有一定很简单的围棋的输入和输出范例,但数量很少,而且非常初级。
第二个重要演讲者 Joelle Pineau,是来自麦吉尔大学计算机科学系的教授。她的主要研究方向集中在「Planning, learning and decision-making,mobile robotics, human-robot interaction」和「adaptive treatment design。」
这次她的研究是关于学术研究的心病 - 论文复现。由于研究者操作手段不同,信息不对称等,对结果复现造成了很大的难度。这个问题严重困扰科学研究,让成果验证更难。根据自然杂志的调查结果,在 1576 名受试者中,有 52% 的人认为这是一个严重的危机,38% 的人相信这有影响。在另一项调查中,大部分科研工作者都经历过无法复现别人成果的痛苦。其中化学领域超过 80%,生物领域达到 77%,物理和工程相关领域则有近 70%。在我们关注的机器学习领域,这种现象同样达到了 80%。所以演讲者希望有一个统一的平台来进行强化学习的研究。通过这个平台,研究者可以在上面调用已有的标准的底层算法,利用统一的硬件配置和算力支撑,来让强化学习的研究更加可控,对模型参数的调整也会更容易。
虽然研究者的要求千差万别,但最底层的需求实际上存在大量重复。如果统一该过程,并且对操作结果进行详细描述,那会使人工智能研究成果更容易验证,大大降低了偶然性和噪音。这种平台的推广无疑可以加速人工智能的发展,也是现在各个学科的一个发展方向。
接着作者介绍了两个易混淆的概念:Reproducibiity 和 Replication。其中 Replication 只是简单的重做实验,在需要相同的数据,达到同样结果时需要,这种情况只适合与模拟数据,在现实生活中往往很难达到。Reproducibillity 就复杂的多,从精确的数据,参数的调整,清晰的文章和代码,计算资源,系统配置等都需要达到一定要求,才可能把原有文章的结果应用到新的地方。
最后,演讲者呼吁我们都能投身于一个 ICLR 2018 Reproducibility Challenge 的活动,互相监督验证,共同验证已有的文章结果,来促进人工智能技术的进一步发展。
接下来的亮点在于来自卡内基梅隆大学的教授 Ruslan Salakhutdinov 的精彩分享:神经地图-深度强化学习的结构化记忆。
Ruslan Salakutdinov 是最近在机器学习领域很活跃的年轻教授,主要研究方向包括 Deep Learning、Probabilistic Graphical Models 和 Large-scale Optimization。这次他为我们带来了如何给强化学习植入记忆,让其在不同环境下都可以表现优异。
演讲从监督学习开始,认为大部分深度学习都可以表示为监督学习:映射并输出一个结果(Mapping and input to an output)。接着演讲谈到了环境对强化学习的影响,主要体现在三个方面:1. 环境是随着时间动态变化的;2. 动作对环境的影响存在不确定的滞后性;3. 对环境的标注是成本高昂而且很难实现的。为了解决这些潜在的问题,Ruslan 根据前人的工作,引入了记忆的概念来调整 agent,使得物体进入新环境时候有更好的表现。但外在记忆的引入又引起了新的问题,比如效率较低(因为要记录所有的信息)。作者的解决方案是利用位置感知记忆(Location Aware Memory),这种方法可以起到一种类似于「地图」的效果,帮助 agent 进行探索。而且该方法在输出结果时候是利用稀疏的结果作为输出,可以防止 agent 过多的重写记忆。之后演讲者又详细介绍了这种神经网络的具体细节,比如 operations, global read, context read 和 write。并且举了不同的迷宫例子,还可以应用与定位问题和自然语言理解问题。在演示的环境,可以清晰看出之前有过「记忆」的 agent 进入新模型时候往往会根据经验有更好的表现。
这种方法的理想状态,agent 会拥有读写自己外在记忆的能力,而外在记忆会和知识库互相转化,并且 agent 也可以用不同的方法来和知识库进行理性的交流(reason communication)。最后演讲者还提出了一些展望,他表示希望进行不同 agents 共享记忆进行交流的尝试。
之后的提问环节,有听众询问是否可以构造更高级更抽象的模型?演讲者给出了肯定的答案,但也承认在现阶段距离该目标还很远。在一个开放的环境(open domain)会遇到更多的困难。另一位听众问到是否可以尝试不同的环境,比如新环境和旧环境有较大差别的情况?有过尝试但目前环境的差别并不是全方位的,演讲者希望有更多更好的模拟器出现。
这次的 DRL 分享反应出研究方向主要集中在深度强化学习的泛化和性能的提升。DeepMind 采用了简化算法的方法,而 Ruslan 则选择了引入记忆的途径。殊途同归,但该方向取得的进展无疑是激动人心的。