【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

简介: FAIR研究科学家田渊栋今天在知乎发表他的2017年工作总结。今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索,文章介绍了这两个方向的研究,在ICML、NIPS等发表的工作。

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索


今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收敛性质。首先是上半年我自己 ICML 的这篇[1],分析了带一层隐层的网络,且输入为高斯分布时的收敛性情况。这篇文章,尤其是去年在 ICLR 17 workshop 上发表的不完全版,可以算是此方向的头一篇,给分析神经网络的非凸问题提供了一个思路。之后 CMU 的杜少雷过来实习,又出了两篇拓展性的文章。两篇都在浅层卷积网络上做了分析,一篇[2]去掉了高斯假设,在一般的输入分布下可以证明梯度下降收敛;另一篇[3]则在高斯假设下分析同时优化两层权重时的情况,证明了并非所有局部极小都是全局最小,这个就推翻了之前很多论文力图推动的方向。

29b99b9cdfc7e4f73e365307c23e62d2c382f41c

这整个方向背后是对于深度学习原理的探讨和严格化定量化的努力。很容易证明一般的非凸优化要得到最优解至少得要进行地毯式轰炸,做指数级的穷举;而神经网络的效果如此之好,一定有它超出一般非凸优化的特殊原因。我的猜想是因为数据集的 “自然” 分布和特定的网络结构(如卷积)联合起来导致的结果。这种思路同时也将 “最优化得到的解” 和机器学习中提的 “泛化能力” 结合了起来——如果解是因为数据分布而收敛得到的,那当然也能适应于服从同样分布的测试样本,这样泛化能力就有了保证。这样的想法也和我在博士阶段的工作一脉相承:即利用输入数据分布的特殊结构(如图像扭曲操作的群结构),构造新的算法,使得在同样保证恢复未知参数的条件下,样本复杂度更低。

接下来,如何将 “自然” 分布严格化定量化,如何证明在实际系统中用的多层非线性网络结构能抓住这个自然分布并且收敛,就是最大的问题。希望我们在 2018 年继续能做出有意思的工作来。

附带说一句,就算是较为理论的方向,今年的竞争也比较激烈,我在投完 ICML 之后一周,就看到 Arxiv 上有一篇相似的工作出现,第一部分和我推导出的结论完全一样,只是方法不同,可见人工智能领域竞争的激烈程度。

612145d15385d8d9a5f894db09894c6de3c137bf

另一个方向是强化学习和游戏。今年我们主要做了系统方面的工作,一个是快速轻量灵活的 ELF 强化学习训练平台(见《黑暗森林中的光之精灵》一文,代码在这里),这个工作已经被今年的 NIPS 接收为 Oral 并且演讲过了[4]。ELF 用多线程代替多进程进行强化学习的训练,并且简化 Python 的接口设计,让只看过教科书的强化学习新人们都能有效率地训练模型。之后我们在 ELF 上面搭建了一个微缩版的即时战略游戏 MiniRTS。MiniRTS 可以以极快的速度模拟(单核 4 万帧每秒,在服务器上运行 1 万局游戏评估模型性能只需 2 分钟),有利于在有限资源限制下的即时战略游戏 AI 研究。在 MiniRTS 上我们用 Actor-Critic 模型训练出一些有意思的人工智能。在这个基础上,我们继续试验了各种参数组合,分析了训练所得智能的一些行为,并且尝试基于模型的强化学习 (model-based RL),获得了一些结果,这篇是放在今年的 NIPS Deep RL Symposium 上,见这里[5]。

13b14aa61dd1e0dbfb1c619304d534c4052ab317

还有一个平台是利用现存四万多人工设计的三维房屋(SUNCG 数据集)构造出的 House3D 平台(代码已经开源),在这个平台中我们可以让智能体看到当前视野中的各种物体,获取深度信息和物体类别标注,还可以四处行走探索并遵循基本物理规律。我们挑选了 200 间房屋进行寻路训练,并且在 50 间新房屋中确认了寻路智能的泛化能力。这篇也在 NIPS Deep RL Symposium 上亮相。

明年我们会尝试各种强化学习的已有算法,诸如层次式强化学习(Hierarchical RL),基于模型的强化学习(model-based RL)等等,并且设计新算法,一方面让我们的智能体变得更聪明,另一方面也希望构建一个公开标准的强化学习算法平台库,让大家都能重复(深度)强化学习这个方向的工作,从而推动整个领域的发展。

参考链接:

[1]An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis, arXiv:1703.00560

[2]When is a Convolutional Filter Easy To Learn? arXiv:1709.06129

[3]Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima arXiv:1712.00779

[4]ELF: Extensive, Lightweight and Flexible Framework for Game Research http://yuandong-tian.com/nips17_oral_final.pdf

[5]https://drive.google.com/file/d/1LMyidobtWabKmQysyhEnWwriI7X2rgQ3/view

==============

我这次回来很多人询问我们组(Facebook AI Research,FAIR)的情况。我们组目前有一百人出头一点,分散在四个不同的地方(加州硅谷,纽约,法国巴黎,及加拿大蒙特利尔),硅谷和纽约人多一些,各约 40 多人。总的来说,我们组还是不错的,研究方向较为自由,计算资源比较丰富,注重文章发表和开源共享,全年招实习生和全职。我现在作为研究经理(Research Manager)负责加州硅谷的强化学习研究,欢迎大家踊跃投送简历,我的邮箱是 yuandong@fb.com.


原文发布时间为:2017-12-27

本文作者:田渊栋

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

相关文章
|
Linux 对象存储 Windows
MinIO 客户端安装与使用教程
MinIO 客户端安装与使用教程
1771 0
|
JavaScript 前端开发 算法
前端优化之超大数组更新:深入分析Vue/React/Svelte的更新渲染策略
本文对比了 Vue、React 和 Svelte 在数组渲染方面的实现方式和优缺点,探讨了它们与直接操作 DOM 的差异及 Web Components 的实现方式。Vue 通过响应式系统自动管理数据变化,React 利用虚拟 DOM 和 `diffing` 算法优化更新,Svelte 通过编译时优化提升性能。文章还介绍了数组更新的优化策略,如使用 `key`、分片渲染、虚拟滚动等,帮助开发者在处理大型数组时提升性能。总结指出,选择合适的框架应根据项目复杂度和性能需求来决定。
831 2
|
机器学习/深度学习 存储 数据可视化
手把手教你绘制和解读实用R列线图(Nomogram):从入门到精通
手把手教你绘制和解读实用R列线图(Nomogram):从入门到精通
4001 1
|
Java Android开发 调度
线程与线程池的应用
异步任务AsyncTask 源码 地址http://androidxref.com/6.0.1_r10/xref/frameworks/base/core/java/android/os/AsyncTask.java 最近在Android开发上遇到线程遇到诸多问题,特此记录下。
1117 0
|
编解码 缓存 算法
【VLC核心一】播放流程梳理->live555收流+ffmpeg:AVCodec解码
一、前言 VLC播放音视频的核心流程梳理,从live555收流到ffmpeg解码的整套流程 涉及到MultiFramedRTPSource、RTPSource、FramedSource、live555、es_out、decoder、video、clock、video_output、araw、mtime、dec、input、output、filters、directx等核心类。
2022 0
|
Web App开发 C语言 C++
转载:50个C/C++源代码网站
来源:http://www.cnblogs.com/feisky/archive/2010/03/05/1679160.html C/C++是最主要的编程语言。这里列出了50名优秀网站和网页清单,这些网站提供c /c++源代码 。
859 0
|
10天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3249 9
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3295 23

热门文章

最新文章