Dileep George
Vicarious AI 是一家硅谷的人工智能 (A.I.) 初创公司,致力于从人脑中获得启发,实现拥有高等智能的机器人。在 Vicarious AI 的办公室里,到处可见其标语——Our Frontier, Human-like AI。
上周,Vicarious AI 发表的一篇论文《A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs》引发了 AI 界的热议。作者在论文中提出了一个不同于深度学习的模型——递归皮质网络(Recursive Cortical Network),突破了基于文本的全自动区分计算机和人类的图灵测试 CAPTCHA。和主流的深度学习算法相比,Vicarious AI 的递归皮质网络在场景文字识别中体现了 300 倍的训练数据使用效率。
文本 CAPTCHA,也就是验证码,是用来防止机器人恶意登录网站的网络安全软件。人类是很容易识别出 CATPCHA 中形状怪异的文字,但对机器而言,CAPTCHA 则成了看不懂的鬼画符,所以这也被视为是一种图灵测试。
早在 2013 年,Vicarious AI 就声称已经攻克 CAPTCHA,但公司直到上周才发表了论文。其中一个主要原因是,当时 CAPTCHA 还在被广泛使用,Vicarious AI 担心发表论文会引发不小的网络安全问题。现在,依旧使用 CAPTCHA 作为验证手段的公司已经不多了,正是发表论文的好时机。
对 Vicarious AI 来说,攻克 CAPTCHA 只是通往 Human-like A.I. 的一个中继站。「我们的目标是解决所有人类擅长解决的问题,尤其是在面对自然视觉信号时,」George 说。
「如果一生只解决一个问题,我肯定选择人脑。」
George 本科毕业于印度理工学院,随后来到美国斯坦福大学就读电气工程,同时钻研机器学习。到了第二年,Dileep 开始对神经科学产生兴趣。「我曾经在初中读过很多心理学的书,在本科的时候全放弃了。这种兴趣在研二的时候又突然回来了,这让我开始侧重对神经科学的研究。」
George 在斯坦福大学读博士期间,遇到了 Jeff Hawkins——《人工智能的未来》作者,也是硅谷掌上电脑公司 Palm 的创始人(Palm 在 2011 年被惠普收购)。Hawkins 是神经科学领域的大牛,和 George 意气相投,两人在 2005 年共同创建了 Numenta——一家致力于机器智能的软件公司。
Numenta 并不满足于 George 对神经科学和机器学习的探索,所以在 2010 年,他准备重新创立一家新公司。碰巧在那个时候,D. Scott Phoenix 也就是 Vicarious AI 的现任 CEO 找到了他。创立 Vicarious AI 之前,Phoenix 曾有过一次创业经历,公司被硅谷知名的孵化器 Y Combinator 收录。之后,他又加入风投 Founders Fund,成为合伙人。
Phoenix 看中 George 在神经科学和工程学上的造诣,决定与他一同创建 Vicarious AI。从公司创立之初,他们的目标就很明确——从人脑获得启发,实现拥有高等智能的 A.I.。
「人脑就是一个通用学习的基础框架,可以在这个世界里学习各种各样的问题,」Phoenix 在接受高盛投资公司的采访中说。
D. Scott Phoenix
当时,提出这个想法的公司很少,但硅谷向来不缺慧眼识人的投资家,比如 Facebook 的天使投资人以及 Paypal 的创始人 Peter Thiel。Thiel 在 2010 年年底给 Vicarious AI 一笔种子轮融资。到了 2014 年,Vicarious AI 完成了 4000 万美元的 B 轮融资,包括 Facebook 的创始人 Mark Zuckerberg,Y Combinator 的 CEO Sam Altman,以及 Tesla 的创始人 Elon Musk 都参与其中。截止目前,Vicarious AI 的融资总额已经超过了 1.3 亿美元。
和融资额形成强烈反差的,是公司至今不过 50 人的规模以及缓慢的扩张速度。George 透露说,直到 2013 年,Vicarious AI 的团队才只有六个人。
「不是不想招人,我们花了很长时间才确定了一条我们自认为正确的研究方向。」George 说。这条方向就是让机器获得感知。
机器理解世界,需要画面感
A.I. 界有一句戏言——「无法理解自然语言的通用人工智能都是耍流氓」。但是,Vicarious AI 在创立之初却决定先回避对自然语言的研究,从计算机视觉领域入手。George 看来,如果机器无法感知这个世界,它也无法理解自己到底在干什么。
「一根垂直插在墙上的钉子和一根垂直插在地上的钉子,哪根钉子是横向的?」George 举了个简单的例子。很明显,插在墙上的钉子是答案。「通常来说,人们不是单纯地从字面上得到这个答案,而是在脑中想象这个画面。得到这个画面前,你必须有关于墙的物理知识和墙与钉子的交互方式,这也是为什么 Vicarious AI 要从视觉下手。」
在计算机视觉领域,如今的主流算法是以卷积神经网络(Convolutional Neural Network) 为代表的深度学习算法。但是,深度学习算法只对固定的问题有效,一旦问题出现变化,算法就不管用了。
「现在的强化学习已经可以玩打砖块游戏了,可如果下面的接受盘往上升三个像素,那么这个模型就会崩溃,」George 说完,还特别强调了「三个像素(only three pixels)」。
大量的数据和计算能力同样是制约深度学习的条件,至少人类下一盘围棋只需要一双手和一杯咖啡提提神,而基于深度学习的 AlphaGo 则要花上 3000 美金;重叠问题则是困扰卷积神经网络许久的「阿喀琉斯之踵」,一旦两张图片重叠,且重叠部分的颜色完全一致,那么卷积神经网络就很难分辨出来。
因此,Vicarious AI 选择了不同于深度学习的生成概率模型,能够模拟和生成图像中物体的轮廓、外形,从而理解物体。生成模型有两个明显的好处:更好的泛化能力和处理对抗样本的能力。在 Vicarious AI 最新的论文中,递归皮质网络就是一种能在多种计算机视觉任务中实现强大的性能和高数据效率的生成模型。
研究生成模型的挑战在于:研究问题的边界是未知的,这反而成了深度学习算法的优势——只让机器做一件事情,它就可以做得很好。Vicarious AI 的团队花了很长时间挑选研究的课题,既能解决计算机视觉中对物体的检测和识别,也能体现泛化的能力。最后,Vicarious AI 选中了 CAPTCHA。
著名的哲学家 Douglas Hofstadter 曾说过:「AI 的核心问题就是理解字母 A(the central problem of AI to understand is the letter 『A』)」,George 对这句话深信不疑。
代表字母 A 的四层递归皮质网络结构
「我认为 CAPTCHA 是一个『完全的 AI 问题』。如果你完全地解决了这种类型的问题,那你就得到了通用人工智能。」George 告诉记者,为了能彻底识别 CAPTCHA,模型必须能识别任何文本。不只是验证码,即使有人在纸上随便写什么形式的字体(就像 PPT 里的艺术字一样),模型也需要识别出来。
想要研究 CAPTCHA 的科学家不止 George 和他的团队,很多科学家都意识到识别 CAPTCHA 的重要性。麻省理工大学的认知科学教授 Josh Tenenbaum 同样在使用生成概率模型解决 CAPTCHA 的问题。
而 Vicarious AI 的解决方法和其他研究最大的区别是——将脑科学的研究成果应用到生成模型中。
人脑已经为机器搭好了框架
在实现通用人工智能的方法上,如今的 A.I. 界出现了巨大的分歧:偏向于借鉴人脑先天机制的「自然派」与相信机器自身发展的「机器派」。今年 10 月,A.I. 界的两位旗手——纽约大学心理学和神经科学教授 Gary Marcus 和 Facebook A.I. 研究所主管 Yann LeCun 就这个问题展开了两个多小时的辩论。Marcus 支持前者,LeCun 则是机器派。
Vicarious AI 选择了站队「自然派」:对人类大脑的研究是实现通用人工智能的关键。「所有的学习算法到头来都是搜索,如果撇开人脑,这样的搜索量实在是太大了;所以,我们认为需要借鉴人脑的特征来实现。」目前,Vicarious AI 有 20% 的成员是研究神经科学的专家,这些对人脑皮质的研究成果也在最新的这篇论文中体现。
在这篇论文中,最典型的例子就是利用视觉皮层中的横向连接(lateral connections)。在人类的视觉系统中,横向连接能够保证人类理解物体轮廓的连续性;将人类视觉的特征应用到递归皮质网络上时,横向连接允许递归皮质网络在池化的过程中不会失去特异性,从而增加不变性。
另一个例子则是「自上而下的注意力机制」。即使是高度重叠且重叠部分透明的字母 A 和 B,人类也可以轻松地分开识别这些字母,这是依靠了注意力机制。当这种特性应用在递归皮质网络时,就可以允许网络拥有组合型(compositionality),允许用多个对象来表示场景。
「我们的研究需要一个称之为『脚手架(scaffold)』的东西,」George 进一步解释道。脚手架原本是编程中的专用词,程序员会建造一个框架(脚手架)让他们方便地访问函数。同样的,递归皮质网络没有采取和 CNN 或者其他深度学习网络的方法,从一张白纸开始从头分析图像;而是基于人类识别图像的这个框架,让机器拥有和人类视觉系统一样的特征。
从结果上来看,递归皮质网络在场景文本识别基准的数据效率是深度学习算法的 300 倍甚至更多。递归皮质网络在 reCAPTCHA 上的准确率达到 66.6%,BotDetect 64.4%,Yahoo 57.4%,PayPal 57.1%。只要准确率高于 1%,就被认为是攻破了 CAPTCHA。
当 2013 年 Vicarious AI 公布结果时,业界褒贬不一,Vicarious AI 没有拿出有效的研究方法是很多 A.I. 科学家口诛笔伐的主要理由,其中也包括了 LeCun。他在 2013 年对 Vicarious AI 进行了激烈的抨击,并用「这是最糟糕的教科书式的 AI 炒作案例(It is a text example of AI hype of the worst kind)」来谴责 Vicarious AI。
过去的四年里,不少人都问过 George 对 LeCun 这番话的评价,他都不予置评。直到上周的论文发表后,George 告诉机器之心,「这篇论文就是最好的答案。」
递归皮质网络不只是用来攻破 CAPTCHA,它还将被应用在控制、推理、机器人技术上。近两年,Vicarious AI 已经在实验室里研究如何将技术应用到工业机器人上。
据 Vicarious AI 的商业化总监楼兴华博士介绍,Vicarious AI 将提供仓储机器人和工厂机器人所需要的视觉和控制的智能模块,尤其是在柔性制造上(flexible manufacturing)。传统的刚性制造生产线都是非标准自动化,每条生产线针对特定的产品,配置和模具都不一样。柔性制造的概念是自动适应不同的产品,最明显的优势就是让系统满足不同的产品要求进行生产,在场景和需求都变化的情况下,机器人的生产效率也能够被保障。
Vicarious AI 的投资人包括 ABB Group 和 Amazon,这家公司也与众多国内外顶尖机器人公司和制造商建立了合作关系。
工业机器人是目前 Vicarious AI 技术落地的方式,但并不意味着 Vicarious AI 会就此止步。Vicarious AI 希望在 2040 年前后实现高等智能的 A.I.。
「我不觉得其他公司会比我们先解决这个问题,」George 显得很有信心,「实现高等智能的 A.I. 就像是把人类送上月球一样伟大,这是我们做下去的动力。」
硅谷顶级人工智能大会AI Frontiers将在本周五(美国时间)盛大召开,点击「阅读原文」参与报名。