【田渊栋年度总结】FAIR强化学习研究进展，理论研究竞争也相当激烈-阿里云开发者社区

【田渊栋年度总结】FAIR强化学习研究进展，理论研究竞争也相当激烈

2017-12-27 1849

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FAIR研究科学家田渊栋今天在知乎发表他的2017年工作总结。今年的主要研究方向是两个：一是强化学习及其在游戏上的应用，二是深度学习理论分析的探索，文章介绍了这两个方向的研究，在ICML、NIPS等发表的工作。

今年的主要研究方向是两个：一是强化学习及其在游戏上的应用，二是深度学习理论分析的探索。

今年理论方向我们做了一些文章，主要内容是分析浅层网络梯度下降非凸优化的收敛性质。首先是上半年我自己 ICML 的这篇[1]，分析了带一层隐层的网络，且输入为高斯分布时的收敛性情况。这篇文章，尤其是去年在 ICLR 17 workshop 上发表的不完全版，可以算是此方向的头一篇，给分析神经网络的非凸问题提供了一个思路。之后 CMU 的杜少雷过来实习，又出了两篇拓展性的文章。两篇都在浅层卷积网络上做了分析，一篇[2]去掉了高斯假设，在一般的输入分布下可以证明梯度下降收敛；另一篇[3]则在高斯假设下分析同时优化两层权重时的情况，证明了并非所有局部极小都是全局最小，这个就推翻了之前很多论文力图推动的方向。

29b99b9cdfc7e4f73e365307c23e62d2c382f41c

这整个方向背后是对于深度学习原理的探讨和严格化定量化的努力。很容易证明一般的非凸优化要得到最优解至少得要进行地毯式轰炸，做指数级的穷举；而神经网络的效果如此之好，一定有它超出一般非凸优化的特殊原因。我的猜想是因为数据集的 “自然” 分布和特定的网络结构（如卷积）联合起来导致的结果。这种思路同时也将 “最优化得到的解” 和机器学习中提的 “泛化能力” 结合了起来——如果解是因为数据分布而收敛得到的，那当然也能适应于服从同样分布的测试样本，这样泛化能力就有了保证。这样的想法也和我在博士阶段的工作一脉相承：即利用输入数据分布的特殊结构（如图像扭曲操作的群结构），构造新的算法，使得在同样保证恢复未知参数的条件下，样本复杂度更低。

接下来，如何将 “自然” 分布严格化定量化，如何证明在实际系统中用的多层非线性网络结构能抓住这个自然分布并且收敛，就是最大的问题。希望我们在 2018 年继续能做出有意思的工作来。

附带说一句，就算是较为理论的方向，今年的竞争也比较激烈，我在投完 ICML 之后一周，就看到 Arxiv 上有一篇相似的工作出现，第一部分和我推导出的结论完全一样，只是方法不同，可见人工智能领域竞争的激烈程度。

612145d15385d8d9a5f894db09894c6de3c137bf

另一个方向是强化学习和游戏。今年我们主要做了系统方面的工作，一个是快速轻量灵活的 ELF 强化学习训练平台（见《黑暗森林中的光之精灵》一文，代码在这里），这个工作已经被今年的 NIPS 接收为 Oral 并且演讲过了[4]。ELF 用多线程代替多进程进行强化学习的训练，并且简化 Python 的接口设计，让只看过教科书的强化学习新人们都能有效率地训练模型。之后我们在 ELF 上面搭建了一个微缩版的即时战略游戏 MiniRTS。MiniRTS 可以以极快的速度模拟（单核 4 万帧每秒，在服务器上运行 1 万局游戏评估模型性能只需 2 分钟），有利于在有限资源限制下的即时战略游戏 AI 研究。在 MiniRTS 上我们用 Actor-Critic 模型训练出一些有意思的人工智能。在这个基础上，我们继续试验了各种参数组合，分析了训练所得智能的一些行为，并且尝试基于模型的强化学习 (model-based RL)，获得了一些结果，这篇是放在今年的 NIPS Deep RL Symposium 上，见这里[5]。

13b14aa61dd1e0dbfb1c619304d534c4052ab317

还有一个平台是利用现存四万多人工设计的三维房屋（SUNCG 数据集）构造出的 House3D 平台（代码已经开源），在这个平台中我们可以让智能体看到当前视野中的各种物体，获取深度信息和物体类别标注，还可以四处行走探索并遵循基本物理规律。我们挑选了 200 间房屋进行寻路训练，并且在 50 间新房屋中确认了寻路智能的泛化能力。这篇也在 NIPS Deep RL Symposium 上亮相。

明年我们会尝试各种强化学习的已有算法，诸如层次式强化学习（Hierarchical RL），基于模型的强化学习（model-based RL）等等，并且设计新算法，一方面让我们的智能体变得更聪明，另一方面也希望构建一个公开标准的强化学习算法平台库，让大家都能重复（深度）强化学习这个方向的工作，从而推动整个领域的发展。

参考链接：

[1]An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis, arXiv:1703.00560

[2]When is a Convolutional Filter Easy To Learn? arXiv:1709.06129

[3]Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima arXiv:1712.00779

[4]ELF: Extensive, Lightweight and Flexible Framework for Game Research http://yuandong-tian.com/nips17_oral_final.pdf

[5]https://drive.google.com/file/d/1LMyidobtWabKmQysyhEnWwriI7X2rgQ3/view

==============

我这次回来很多人询问我们组（Facebook AI Research，FAIR）的情况。我们组目前有一百人出头一点，分散在四个不同的地方（加州硅谷，纽约，法国巴黎，及加拿大蒙特利尔），硅谷和纽约人多一些，各约 40 多人。总的来说，我们组还是不错的，研究方向较为自由，计算资源比较丰富，注重文章发表和开源共享，全年招实习生和全职。我现在作为研究经理（Research Manager）负责加州硅谷的强化学习研究，欢迎大家踊跃投送简历，我的邮箱是 yuandong@fb.com.

原文发布时间为：2017-12-27

本文作者：田渊栋

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接：【田渊栋年度总结】FAIR强化学习研究进展，理论研究竞争也相当激烈

【田渊栋年度总结】FAIR强化学习研究进展，理论研究竞争也相当激烈

新智元

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【田渊栋年度总结】FAIR强化学习研究进展，理论研究竞争也相当激烈

新智元

热门文章

最新文章

相关电子书