机器之心年度盘点：2017年人工智能领域度备受关注的科研成果-阿里云开发者社区

微信图片_20211129143553.jpg

来自谷歌大脑负责人 Jeff Dean 的 Keynote：人们在 arXiv 上提交的机器学习论文数量正遵循摩尔定律增长。人工智能技术的发展速度是否也有这么快？

AlphaGo：从“零”开始

微信图片_20211129143601.jpg

今天，每当聊起人工智能，我们就不得不提 AlphaGo，这款由谷歌旗下研究型公司 DeepMind 开发的著名围棋程序在 2017 年再次掀起了 AI 的热潮。从年初借「Master」名义在网络围棋平台上迎战各路人类围棋高手，到 5 月与柯洁等人的「人机最后一战」，AlphaGo 的故事在 10 月份以又一篇 Nature 论文「AphaGo Zero」再次展示了计算机在围棋上强大的能力；紧随而至的 AlphaZero 则将这种强大泛化到了其他领域中。

机器之心也亲历了 AlphaGo 事件的始末。在 5 月份人机大战时，除了现场报道之外，我们还邀请了阿尔伯塔大学教授、计算机围棋顶级专家 Martin Müller 以及《深度强化学习综述》论文作者李玉喜博士，共同观看了比赛直播。Müller 教授所带领的团队在博弈树搜索和规划的蒙特卡洛方法、大规模并行搜索和组合博弈论方面颇有建树。实际上，参与了大师级围棋程序 AlphaGo 的设计研发的 David Silver 和黄士杰（Aja Huang）（他们分别是第一篇 DeepMind 的 AlphaGo 相关 Nature 论文的第一作者和第二作者）都曾师从于他。

在击败柯洁等中国围棋名手之后，随着 DeepMind 宣布人机大战计划结束，AlphaGo 的故事似乎已经结束。然而在 10 月 18 日，DeepMind 的又一篇 Nature论文《Mastering the game of Go without human knowledge》再次让全世界感到震惊。在论文中，DeepMind 首次展示了全新版本的 AlphaGo Zero —— 无需任何人类知识标注。在历时三天，数百万盘的自我对抗之后，它可以轻松地以 100 比 0 的成绩击败李世乭版本的 AlphaGo。DeepMind 创始人哈萨比斯表示：「Zero 是迄今为止最强大，最具效率，最有通用性的 AlphaGo 版本——我们将见证这项技术很快应用到其他领域当中。」

没等多久，哈萨比斯的宣言就初步实现了，在 12 月 NIPS 2017 大会举行期间，DeepMind 又放出了一篇论文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》，其中描述了使用 AlphaGo Zero 技术，并可泛化至其他领域任务的新一代算法 AlphaZero。新的算法可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平。据称，它在经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。

12 月 11 日，DeepMind 发布了围棋教学程序，其中收录了约 6000 个近代围棋史上的主要开局变化，所有变化都附带了 AlphaGo 评估的胜率。DeepMind 希望以此推动人类围棋水平的进步，在公布之后，AlphaGo 的重要研究成员黄士杰博士宣布离开项目，转向 DeepMind 旗下的其他方向研究，此举宣告了 AlphaGo 在围棋方向上的研究告于段落。

延伸阅读：

德州扑克击败人类：DeepStack 与 Libratus

微信图片_20211129143608.jpg

德州扑克这种复杂的扑克游戏已经被人工智能（AI）掌握。而且这个游戏还不是被征服了一次——两个不同的研究团队所开发的 bot 都在一对一德州扑克比赛上完成了击败人类的壮举。今年1月份，卡耐基梅隆大学（CMU）开发的名为 Libratus 的人工智能程序在宾夕法尼亚州匹兹堡的 Rivers 赌场为期20天的一对一德扑比赛中击败了4 名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou。而在另一边，加拿大阿尔伯塔大学、捷克布拉格查理大学和捷克理工大学的研究者联合发表的论文《Deepstack: Expert-level artificial intelligence in heads-up no-limit poker》出现在了著名学术期刊《Science》上，该研究团队展示了人工智能已经在无限制扑克（No-Limit Poker）游戏上达到了专家级的水平。

与信息完全公开的围棋不同，德州扑克是「不完美信息（imperfect information）」类博弈，能反映真实生活中我们面临问题时的场景，诸如拍卖以及业务谈判，因而在德州扑克上的技术突破也意味着人工智能技术的发展速度正在加快。

有趣的是，在解决同样的问题时，DeepStack 与 Libratus 采取的方式不尽相同：DeepStack 采用的是深度学习针对大量牌局变化进行训练（超过 1100 万局），从而获得在实际比赛时对获胜概率拥有「直觉」；而 Libratus 采用的是基于纳什均衡的博弈求解技术。

延伸阅读：

自归一化神经网络

《Self-Normalizing Neural Networks》是今年 6 月份在 arXiv 上公开的一篇机器学习论文，后被 NIPS 2017 大会接收，它的作者为奥地利林兹大学的 Günter Klambauer、 Thomas Unterthiner 与 Andreas Mayr。这篇论文在提交后引起了圈内极大的关注，它提出了缩放指数型线性单元（SELU）而引进了自归一化属性，该单元主要使用一个函数 g 映射前后两层神经网络的均值和方差以达到归一化的效果。值得注意的是，该论文作者 Sepp Hochreiter 曾与 Jürgen Schmidhuber 一同提出了 LSTM，之前的 ELU 同样来自于他们组。回到论文本身，这篇 NIPS 论文虽然只有 9 页正文，却有着如同下图一样的 93 页证明附录：

微信图片_20211129143613.jpg

不知当时审阅这篇论文的学者心情如何。无论如何，它提出的方法可以让你稍稍修改 ELU 激活就能让平均单位激活趋向于零均值/单位方差（如果网络足够深的话）。如果它最终是正确的方向，批处理规范就会变得过时，而模型训练速度将会大大加快。至少在论文中的实验里，它击败了 BN + ReLU 的准确性。

论文链接：https://arxiv.org/abs/1706.02515

延伸阅读：

引爆机器学习圈：「自归一化神经网络」提出新型激活函数SELU

GAN 及其各种变体

微信图片_20211129143620.jpg

2016 年，Yann LeCun 曾称 GAN 是深度学习领域最重要的突破之一，而我们在2016 年也看到了 GAN 变体衍生的苗头，比如 Energy-based GAN 和最小二乘网络 GAN。到了 2017 年初，我们就看到了各种 GAN 变体如雨后春笋般出现，其中一篇名为 WGAN 的论文在年后不久引发了业界极大的讨论，有人称之「令人拍案叫绝」。

从 2014 年 Ian Goodfellow 提出 GAN 以来，它就存在着训练困难、生成器和判别器的 loss 无法指示训练进程、生成样本缺乏多样性等问题。虽然后续的变体都在尝试解决这些问题，但效果不尽人意。而 Wasserstein GAN 成功做到了以下几点：

彻底解决 GAN 训练不稳定的问题，不再需要小心平衡生成器和判别器的训练程度
基本解决了 collapse mode 的问题，确保了生成样本的多样性
训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程，这个数值越小代表 GAN 训练得越好，代表生成器产生的图像质量越高（如题图所示）
以上一切好处不需要精心设计的网络架构，最简单的多层全连接网络就可以做到

除了 WGAN，也有其他多种 GAN 的变体于 2017 年出现，我们以资源列表的形式为大家列出：

然而到了年底，谷歌大脑的一篇论文对目前火热的GAN研究敲响警钟。在一篇名为《Are GANs Created Equal？A Large-Scale Study》的论文中，研究人员对 Wasserstein GAN 等 GAN 目前的六种变体进行了详尽的测试，得出了“没有找到任何证据证明任何一个算法优于原版算法”的结论（参见：六种改进均未超越原版：谷歌新研究对 GAN 现状提出质疑）。或许我们应该更多地把目光转向到新架构上了。

深度神经网络碰上语音合成

微信图片_20211129143624.jpg

近年来，随着深度神经网络的应用，计算机理解自然语音的能力有了彻底革新，例如深度神经网络在语音识别、机器翻译中的应用。但是，使用计算机生成语音（语音合成（speech synthesis）或文本转语音（TTS））仍在很大程度上基于所谓的拼接 TTS（concatenative TTS）。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络，能否像促进语音识别的发展一样推进语音合成的进步，也成为了人工智能领域研究的课题之一。

2016 年，DeepMind 提出了 WaveNet，在业内引起了极大的关注。WaveNet 可以直接生成原始音频波形，能够在文本转语音和常规的音频生成上得到出色的结果。但就实际应用而言，它存在的一个问题就是计算量很大，没办法直接用到产品上面。因此，这个研究课题还有非常大的提升空间。

2017 年，我们见证了深度学习语音合成方法从实验室走向产品。从机器之心关注到的内容，我们简单梳理出了如下研究：

谷歌：Tacotron、WaveNet（应用于谷歌助手）
百度：Deep Voice、Deep Voice 2（NIPS 2017)、Deep Voice 3（提交 ICLR 2018)
苹果：hybrid unit selection TTS system （应用于Siri）

延伸阅读：

大批量数据并行训练 ImageNet

微信图片_20211129143628.jpg

深度学习随着大型神经网络和大型数据集的出现而蓬勃发展。然而，大型神经网络和大型数据集往往需要更长的训练时间，而这正好阻碍研究和开发进程。分布式同步 SGD 通过将小批量 SGD（SGD minibatches）分发到一组平行工作站而提供了一种很具潜力的解决方案。然而要使这个解决方案变得高效，每一个工作站的工作负载必须足够大，这意味着 SGD 批量大小会有很大的增长（nontrivial growth）。今年 6 月，Facebook 介绍了一项研究成果——一种将批量大小提高的分布式同步 SGD 训练方法，引发了一场「快速训练 ImageNet」的竞赛。随着参与研究的机构越来越多，截至 11 月，UC Berkeley 的研究人员已将 ResNet-50 在 ImageNet 上的训练时间缩短到了 48 分钟。

延伸阅读：

革新深度学习：Geoffrey Hinton 与 Capsule

微信图片_20211129143631.jpg

众所周知，最近一波人工智能行业浪潮是由深度学习及其发展引发的。然而，这一方法是否能够将人类带向通用人工智能？作为深度学习领军人物，关键机制反向传播提出者之一的 Geoffrey Hinton 率先提出抛弃反向传播，革新深度学习。他的创新方法就是 Capsule。

Capsule 是由深度学习先驱 Geoffrey Hinton 等人提出的新一代神经网络形式，旨在修正反向传播机制。在 Dynamic Routing Between Capsules 论文中，Geoffrey Hinton 这样介绍 Capsule：「Capsule 是一组神经元，其输入输出向量表示特定实体类型的实例化参数（即特定物体、概念实体等出现的概率与某些属性）。我们使用输入输出向量的长度表征实体存在的概率，向量的方向表示实例化参数（即实体的某些图形属性）。同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测一致时（本论文使用动态路由使预测一致），更高级别的 capsule 将变得活跃。」

Capsule 中神经元的激活情况表示了图像中存在的特定实体的各种性质。这些性质可以包含多种不同的参数，例如姿势（位置、大小、方向）、变形、速度、反射率、色彩、纹理等。而输入输出向量的长度表示了某个实体出现的概率，所以它的值必须在 0 到 1 之间。

机器之心也详细解读了 10 月 Hinton 公开的论文，这篇论文的亮点在于 Capsule 层的输入与输出都是向量，构建向量的过程可以认为是 PrimaryCaps 层利用 8 个标准的 Conv2D 操作产生一个长度为 8 个元素的向量，因此每一个 Capsule 单元就相当于 8 个卷积单元的组合。此外，在 Capsule 层中，Hinton 等人还使用了动态路由机制，这种更新耦合系数（coupling coefﬁcient）的方法并不需要使用反向传播机制。

除了 Hinton 等人公布的 Capsule 论文以外，还有一篇《MATRIX CAPSULES WITH EM ROUTING》论文，该论文采用 EM Routing 修正原论文的 dynamic routing 从而实现更好的效果。

延伸阅读：

超越神经网络？Vicarious 提出全新概率生成模型

微信图片_20211129143634.jpg

代表字母 A 的四层递归皮质网络结构

尽管曾受到 Yann LeCun 等人的质疑，但知名创业公司 Vicarious 提出的生成视觉模型论文仍然发表到了 Science 上。这种全新的概率生成模型（又名递归皮质网络）能在多种计算机视觉任务中实现强大的性能和高数据效率，具有识别、分割和推理能力，在困难的场景文字识别等基准任务上超过了深度神经网络。研究人员称，这种方法或许会将我们带向通用人工智能。

该模型表现出优秀的泛化和遮挡推理（occlusion-reasoning）能力，且更具有 300 倍的训练数据使用效率（data efficient）优势。此外，该模型还突破了基于文本的全自动区分计算机和人类的图灵测试 CAPTCHA，即在没有具体验证码的启发式方法下分割目标。

「我认为 CAPTCHA 是一个『完全的 AI 问题』。如果你完全地解决了这种类型的问题，那你就得到了通用人工智能。」Vicarious CTO George 告诉机器之心，为了能彻底识别 CAPTCHA，模型必须能识别任何文本。不只是验证码，即使有人在纸上随便写什么形式的字体（就像 PPT 里的艺术字一样），模型也需要识别出来。

递归皮质网络不只是用来攻破 CAPTCHA，它还将被应用在控制、推理、机器人技术上。近两年，Vicarious AI 已经在实验室里研究如何将技术应用到工业机器人上。工业机器人是目前 Vicarious AI 技术落地的方式，但并不意味着 Vicarious AI 会就此止步。Vicarious AI 希望在 2040 年前后实现高等智能的 A.I.。

延伸阅读：

从 TPU 到 NPU：席卷所有设备的神经网络处理器

微信图片_20211129143640.jpg

人工智能的最近一次浪潮起源于 2011 年前后深度学习引起的大发展。从语音识别到训练虚拟助理进行自然交流，从探测车道线到让汽车完全自动驾驶，数据科学家们在技术的发展过程中正一步步攀登人工智能的新高度。而解决这些日益复杂的问题则需要日益复杂的深度学习模型。而在其背后，快速发展的 GPU 技术功不可没，硬件计算能力突破是这次深度学习大发展背后的原因。

近年来，人们逐渐认识到计算芯片对于人工智能的重要性，围绕 AI 任务进行专有加速的芯片越来越多，2017 年也成为了深度学习计算专用芯片不断投入商用的一年。无论是 AlphaGo 背后的谷歌 TPU ，还是加入了全新 Tensor Core 结构的英伟达 Tesla V100，为服务器端设计的深度学习专用芯片已经获得了大规模应用，成为了云服务基础设施必不可少的一部分。而在移动端，对于机器学习任务加速的 SoC 也随着苹果 A11（Neural Engine）与华为麒麟 970（NPU）的推出而来到了用户的手中。今天，一些神经网络已经可以塞进智能手机中，为多种APP 提供判断能力，而科技巨头的服务器正以前所未有的高效率处理无数有关机器学习的任务请求，我们所设想的人工智能生态体系正在逐渐成型。

延伸阅读：

总结

从 AlphaGo 技术通用化到 Geoffrey Hinton 倾力推动的 Capsule，我们可以看到，2017 年的人工智能行业不仅正将技术落地，也在向实现通用 AI 的终极挑战不断进发。随着我们对于深度学习探索的深入，新技术的利与弊已经逐渐展现在了我们的眼前，除了打造产品服务用户，探索新的方向是刻不容缓的任务。在2018 年，人工智能领域将面临怎样的变革？让我们共同期待。

延伸阅读：

机器之心独家盘点：2016 人工智能领域十大焦点回顾

机器之心年度盘点：2017年人工智能领域度备受关注的科研成果

AlphaGo：从“零”开始

德州扑克击败人类：DeepStack 与 Libratus

自归一化神经网络

GAN 及其各种变体

深度神经网络碰上语音合成

大批量数据并行训练 ImageNet

革新深度学习：Geoffrey Hinton 与 Capsule

超越神经网络？Vicarious 提出全新概率生成模型

从 TPU 到 NPU：席卷所有设备的神经网络处理器

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器之心年度盘点：2017年人工智能领域度备受关注的科研成果

AlphaGo：从“零”开始

德州扑克击败人类：DeepStack 与 Libratus

自归一化神经网络

GAN 及其各种变体

深度神经网络碰上语音合成

大批量数据并行训练 ImageNet

革新深度学习：Geoffrey Hinton 与 Capsule

超越神经网络？Vicarious 提出全新概率生成模型

从 TPU 到 NPU：席卷所有设备的神经网络处理器

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景