早在今年 5 月的时候,机器之心就曾作为唯一一家国内媒体出席了于瑞士洛桑举行的神经科学峰会 Brain Forum。我们也在现场的报道中详述了 Greg 关于深度学习和深度神经网络的演讲。
在实际的研究领域,Greg 的研究方向包括了生物神经科学、人工智能和可扩展的机器学习,并在行为经济学、系统神经科学和深度学习等领域发表了诸多的论文。在此前很长一段时间,Greg 在谷歌都从事着大脑计算领域的研究;近期,他也成为了谷歌大规模深度神经网络项目的联合技术主管。
关于人工智能、机器学习以及无监督学习的现在和未来,Greg 和我们分享了许多有趣的观点。
以下为采访摘录:
Question:你曾在瑞士的 Brain Forum 上提到过,机器学习并不是什么黑魔法,而是一种工具。你觉得现在机器学习发展的最大瓶颈是什么?
Greg:这项技术其实在不断变化,机器学习需要数据样本、资源和工具,还有计算机运算能力等多方面的支持。回顾机器学习发展的历史会发现,由于计算机运算速度缓慢、成本过高等技术原因滞后,影响了程序运行的效率,无法满足需求,于是机器学习的发展进程也比较缓慢,也没有实际的产品和服务被推出来。
直到最近几年计算机运算能力有了大幅提升,速度提升、成本下降并且应用越来越广,这改变了整个局面。所以如今机器学习的瓶颈变成了与人相关的因素,在于人的创造力与创新能力,在于在擅长并懂得如何运用这项技术的人才。
所以我们的重心也发生了变化,在其余所有因素和条件,诸如充足的数据、免费的工具、资源、足够强大的计算机运算能力等等都满足的情况下,我们需要教会和培养更多的人如何运用机器学习这个技术来将实现他们创新的构思。
Question:你觉得有哪些可以与深度学习相竞争的机器学习方法?另外,在你眼中,分布式计算对于机器学习来说具体有些什么益处?
Greg:目前,Deep Learning 是关于机器学习非常热门的一项技术。市面上很多新产品和服务也都在使用 Deep Learning,但是这只是一项现有的、能满足当下需求的技术。但我认为更重要的是更多的研究人员和科学家能在更广的维度和视野下继续深入研究,这样才能发现与时俱进,发现更新的技术来满足这一领域下一阶段的更多需求。
关于分布式计算的问题。因为机器学习本身是一个特别缓慢的过程,所以需要调用和运行大量的计算资源。分布式计算的重要性在于能够为我们实现足够快运行速度,来满足我们在创新实验方面的需求,测试我们的新点子,用结果告诉我们哪些想法可行,哪些不行。所以分步计算在我看来就是一个促进机器学习的助力,让运算能力更快成本更低。
Question:去年你们的团队推出了 Smart Reply 功能,请问目前这项功能运转得怎样?在哪些情况下邮件可以代替人工进行自行处理?
Greg:目前我们在智能回复方面发表了很多学术论文和研究报告。它的运作方式是根据收取的邮件,提取相关信息识别其中的逻辑、语境,来组织语言进行回复。
目前能够实现的功能仅限于一些不那么正式的简短的即时回复,比如「到时候见!」「抱歉我可能办不到」,或者「我会尽快回复你」和「稍后联系」这样的简单地短句,这是目前机器可以比较有效地处理的范围,暂时还不能处理一些较为复杂和带有意图性的答复。
Question:我们知道目前人工智能和机器学习还仅限于处理一些较为局限、具体的专门领域,你认为什么时候会出现更为强大的通用型人工智能?
Greg:这是一个有趣的问题,我认为未来的发展趋势,还是专业的领域用专用的技术和模型解决特定的问题和任务,这样的应用对于一个系统和技术更为高效且更有实际意义。
关于出现那种通用的技术我不是特别有信心,即便是有这样的技术,我认为也不会比专用针对性地解决特定问题的解决方案更快更有效,而只会更慢效率更低。
Question:你如何评价量子计算?
Greg:这是一个目前还停留在研究阶段的技术,并没有应用的实际,如果有也可能也是非常遥远的未来才会实现。我认目前它还只是一个惊艳的物理学科研课题,即便是应用到工程设备上都还需要很长时间。如果有人能在有生之年研发并制造出量子计算机,这将大大提高计算效率,但是我现在只能说,祝在这一领域的研究者们好运。
Question: 能否谈论下你对 Google 开源 TensorFlow 的理解?在未来人工智能和机器学习的发展上,Google 有哪些计划?
Greg:对于人工智能,我想强调的是它不是一个具体的可以包装销售的产品。它实际上是一个工具,软件工程师以及其他有创造力的人们可以使用这个工具来制造和开发新的产品和服务。而 TensorFlow 把这些 Google 正在使用的基本的工具开放给公众使用。
未来这个领域相关的产品,Google 打算把自己开发的平台也通过云服务共享给公众使用,通过这种云机器学习,其他开发者可以开发和实现自己的机器学习构想,就像我们在 Google 中研发一样。他们可以通过 TensorFlow 使用我们提供的免费软件和工具,也可以用云服务运行他们自己构建的机器学习系统。
我们也会通过 API 向开发者提供一些预置好的机器学习的子系统,这样开发者只需要再添加几行简单的代码就可以实现比如翻译、图片识别等技术。这样开发者并不需要成为机器学习的专家,就能开发自己的机器学习应用的产品。
Question:Google 是否有一些准则来确保人工智能技术会朝着你提到的这个方向发展?
Greg:这就是为什么 Google 会主导去建立了一个名为 Partnership on AI to Benefit People & Society 的组织的原因,Partnership on AI 是一个独立的非盈利组织,还有很多公司都参与其中促成一个关于人工智能技术如何与人类、社会、经济等互动的话题开放式的讨论平台,促进人们对人工智能技术的理解,讨论甚至是公开辩论。更多地把关于这些话题面临的挑战放到桌面上来公开讨论,要好过于由各家公司私底下研究。
Question:如今很多公司在推出自己的产品和服务的时候都会标榜人工智能,但是市场营销中提到的人工智能和深度学习是否真实可信还需要甄别和考量,如何辨别人工智能真伪?
Greg:这么看来目前市面上确实存在一些公司把人工智能和机器学习用于品牌营销的策略,但是最终消费者应该在意和关注的并不在于技术是如何研发的,而在于这些技术是否真正在发挥作用。如果通过使用某些产品你确实感觉到它的智能,觉得它有用,何必在意技术是如何实现的。所以我的建议就是消费者还是要从产品自身的功能这些切实能考量的标准来识别,而不要轻易被市场营销左右,因为它根本不重要。
Question:目前存在一些对于大公司关于隐私和垄断方面的质疑和顾虑;同时,很多小规模的公司也认为自己在竞争中处于弱势地位,无法和大公司竞争,因为大公司拥有太多用户信息。你怎么看这个问题?
Greg:首先谈一下用户隐私的问题,隐私对于消费者乃至每个人都很重要,所以对于公司来说,很重要的一点就是必须非常清晰明确地和用户沟通公司的隐私政策和标准是怎样的,用户则可以根据这些信息来决定是否认可并继续使用这些产品和服务。
我刚才讲到的 Partnership on AI,这个组织一个重要的功能,就是帮助制定一些原则和标准,来规范各个公司的具体操作。但最终决定权还是交回用户和消费者自己的手中。同时一家公司如果想要用户持续地使用自家的平台,他们就必须想办法赢得并维护用户的信任。
接下来讲一下小公司如何成长壮大的过程,一家从事某些小研究专注小范围的产品的公司逐渐壮大起来是一件很寻常的事情,就像当年 IBM 并没有想方设法阻止微软的成长,微软也没有阻止 Google 的成长,Google 也没有阻止 Facebook 做大做强,这种情况会永远持续地发生下去。从好地方面看,目前我们的行业总是能以某种方式保持更迭并不断前行。
另外,数据量是否足够这个问题的重要性目前其实正在削弱,数据是否足够取决于你想要达到的目标。比如物体识别功能对于当年的还在上学的我来说就是科幻小说,但当今任何一个计算机科学专业的研究生都能做到,收集到相关数据来运行某个程序也是很容易的事。同理,现在任何一个科学技术类的竞赛,所有参赛者能获取的数据都是一样的。
同样的数据量在 1997 年或许不够,但在 2010 年之后,数据量的差异已经不能起到多重要的作用了,更多的数据也不见得能有多大的益处。语音识别也是同样的道理,不需要特别多的数据就能实现某个新的尝试。及时是众所周知奇迹般的成就 AlphaGo,它其实也是使用的公开的围棋比赛资料和数据实现的机器学习。所以机器学习的秘诀并不在于录入了秘密的数据,而在于人的创意和计算资源本身的创造性。
Question:与多阶学习相比,使用基于多图表征的异构数据的联合学习的好处是什么?
Greg:目前这一领域的研究还尚有缺口,我们希望看到更多关于机器多任务学习的研究出现,还有比如 multi-renpresentation learning(多表征学习),trasfer learning(迁移学习)其实也是机器学习研究人员研究了很长一段时间的课题。但直到最近,我们才看到一些实际的应用成果出现,这些研究领域确实让人感到很兴奋。每年我能看到一些新的观点涌现出来,今年我也特别关注和期待这一领域的新进展(比如 ICML、ICLR 这些学术年会)。
Question: 你认为 Google 在人工智能领域最大的竞争对手是谁?
Greg:对于这个行业的所有公司来说,好消息每个公司都人才济济,同时全球很多大学以及公司都有自己的人工智能实验室在不断尝试创新和研发,所以整个行业都从中受益。如果这个行业只有一家公司独大,那么这个领域的发展将会更慢更低效。因此人工智能行业竞争越大越开放是一件好事,并且我们希望这个大环境能继续这么开放且持续地充满竞争。
Question:你分别对监督学习、无监督学习和半监督学习各有什么看法?
Greg:人工监督下的机器学习已经很好的投入实际应用,无人工监督的机器学期据我所知还没有投入实际应用需要更多的科研努力,半人工刚好介于两者之间。
Question: 你觉得目前的深度学习有哪些急需突破的点?
Greg:这个机器学习不应当是一种我们所说的黑魔法。最重要的是需要让人们更容易地探索,不同的配置调配(tuning)和变量(因需而异作出差异化的模型调整),他们不需要去猜想这是什么黑魔法以及背后的工作原理,这将会是接下来 Deeplearning 的发展方向,无论是理论研究还是工程应用升级方面,更好地探索学术理论研究中的猜想指标构思和建模。
Question:你觉得目前 multi-graph presentation(多图表达)面临的最大挑战是什么?Google 又是如何解决的?
Greg:关于多图表达,我们现有的技术手段还停留在创新研发阶段,还有很多空白领域有待研究。可以说是刚刚起步吧,所以我们也很鼓励更多的研究人员能在这个领域积极探索。
©本文由机器之心原创,转载请联系本公众号获得授权。