用公开语料推进NLP研究,孵化现象级产品 | 专访阿里AI Labs聂再清

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。

相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。” 

亚马逊Amazon Echo、苹果Apple HomePod、谷歌Google Home


如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随着智能产品的普及,谁先用现象级产品掌握了语音的入口,谁就将成为AI时代的赢家。

然而目前,在复杂的现实场景中,智能音箱的交互体验依然有限,比如调节空调温度的时候,向智能助手喊话可能还不如直接动手按按钮来得方便。创新工场人工智能工程院副院长王咏刚也曾公开表示,仅仅是智能音响的唤醒词背后,就蕴含有巨大的技术含量:“想把唤醒词做到唤醒70%以上,唤醒的区间1米到10米,想把唤醒词做到兼容非常多的不同噪音环境是非常非常难的技术,这件事在所有现在已经发售的智能音响来说,能做好的寥寥无几。”

图:2001太空漫游里的超级电脑HAL 9000距离我们依旧遥远,不过在外形上,不论是天猫精灵还是苹果HomePod,都似乎在致敬HAL。

国外的厂商如亚马逊、谷歌、苹果、索尼,国内的如阿里、京东+科大讯飞、小米甚至喜马拉雅都在抢占智能音箱的市场。2015年售出250万台、2016年520万台,亚马逊Echo一直是音箱领域的霸主。而谷歌在今年10月初的发布会上,在原有的Google Home之外,发布了两款智能音箱Google Home Mini和Google Home Max,定位低端和高端消费者,直接对应亚马逊的Echo Dot和苹果的HomePod。

阿里发布于今年7月的智能音箱——天猫精灵,可以被视为阿里布局在语音交互领域的入口级产品。10月20日,天猫双11预售开始,原价499元的天猫精灵,“双11价”超级会员价格为99元。目前国内多数用户尽管对智能音箱有好奇,但出于较高的价格等原因,对于购入相关产品仍停留在观望态度,而这次天猫精灵的双11价,似乎试图给国内观望用户提供一次低成本接触人工智能的机会。

图:截至大数据文摘发稿,天猫精灵的预定数量已经超过29万台。

同样是背靠电商资源和云服务,阿里的天猫精灵是否有机会超越亚马逊Echo?

阿里的视野显然不仅限于音箱,音箱也不会是语音交互的唯一入口。在刚刚结束的云栖大会上,阿里宣布开放天猫精灵的内置人机交流系统AliGenie。就这一举措而言,阿里想做的一定不仅仅是打造智能家居设备的中心。未来,无人小店、酒店、机场候机室等行业的普通硬件产品都将能够借助开放平台获得语音交互能力,提供智能语音服务。越来越多的硬件设备和行业场景都将进入语音时代,而且人人都可以成为开发者,构成一个”智联网“产品生态系统。

大数据文摘有幸对天猫精灵背后的研发团队——阿里人工智能实验室(以下简称 AI Labs)北京研发中心总负责人聂再清博士进行了专访。

聂再清博士此前就职于微软亚洲研究院任首席研究员,他和谷歌Daydream/Tango项目技术主管李名杨博士的入职,被视为阿里达摩院成立后的“第一枪”,也预示AI Labs未来的产品方向——除了天猫精灵这一语音交互产品外,很有可能会推出基于视觉交互,甚至“机器人”类型的人工智能产品。

AI研究院不仅要“研究驱动”,更需要“产品驱动”


图:阿里巴巴人工智能实验室北京研发中心总负责人聂再清。 聂再清博士于今年10月加入AI Labs,此前他就职于微软亚洲研究院任首席研究员,主要负责自然语言理解、实体挖掘的研发工作。加入AI Labs之后,聂再清博士的主要研究内容仍是基于语音转化成文本后的文本语义理解,并将主要负责知识图谱和自然语言理解的研究团队的建立。

采访中,聂再清博士一再表示,相比其他企业的研究中心,阿里AI Labs最大的特点是在研究的同时注重产品的孵化。“阿里AI Labs和传统实验室的区别是除了技术之外,还有市场、设计等等部门,非常适合孵化一个产品。我和团队的座位在一起,大家作战式工作,非常紧密,喊一声就都听到了。”

而聂再清自己也非常强调用户的反馈,希望做出产品级的东西让每个人都能用上,真正改变人类的生活方式。而这一点很契合马云在云栖大会主论坛上对“达摩院”的定位:research for solving problem(点击查看大数据文摘相关报道《阿里成立达摩院预计3年投千亿,马云称它要活的比阿里更久》)。

“我非常认同马云老师说的‘research for solving problem’,有些人做研究可能目光比较长远,他不需要别的feedback(反馈)就可以想到一个改变100年以后的事情的研究方向,但我可能看不到。我非常强调feedback loop(反馈环路),更希望用户给我反馈,让我在用户的指导下做一些东西出来。”

聂再清认为随着天猫精灵的内置人机交流系统AliGenie平台的开放,阿里能够赋能第三方在平台上,让更多人参与进来。进而建立一个有相当流量的生态,在这个生态中让每个开发者都有利可图,进而用公开语料大大地推进自然语言理解和知识图谱的研究,让机器更好地理解人的语言。

对一个人来讲,研究和产品可能无法兼得,但一个团队可以

当被问及一个好的AI团队应该是研究导向还是产品导向的时候,聂再清颇有感慨:“在刚开始的时候,一个研究人员需要更多的积累,所以是研究导向的,但一旦有了想法,有了某个机会,一定是产品驱动。对一个人来讲,研究和产品可能无法兼得,但一个团队可以协作完成。”

而关于什么是好的AI人才 聂再清认为他首先应该关心前沿技术,要参与到学术圈里去对话、去交流、去得到同行的反馈,同时要比较落地、了解用户的需求,还要有情怀、对推进技术向前发展充满热情。

“我很喜欢做研究,但我个人比较喜欢做一些真正落地的产品级的东西,希望让每个人都能用上这个东西。我以前做的人立方也很成功,很多人报道、很多人知道,但没有达到人人都知道、人人都用上的状况。我非常希望有一个机会,能创造一个东西来改变人类的生活方式。”聂再清说。

大数据文摘还就聂再清博士在NLP研究领域的相关工作进行了提问,以下为专访实录:

大数据文摘:

可以介绍一下您目前的研究方向吗?

聂再清:

我们在做的事情是把大量公开数据、公开知识,利用到模型里去。我的设想是建立一个很大的可替换词词典,把每个词从一个string(字符串)变成一个ID。比如,“姚明”这个词,可能大部分人想到的是打篮球的姚明,但可能也有人想到其他的姚明。

这个东西微软或者阿里巴巴全部自己做也不行,必须有一个生态,和开发者们一起做,同时必须利用大数据。互联网上各种人说了很多话,怎么能利用公开的语料,根据说话的不同的意图建立可替换词?

阿里在做天猫精灵,这是一个全新的语音交互平台。语音输入这是一种新的输入方式,它需要一个入口。不一定是跟音箱交互,可以是在车里面讲话,可以是对着电视机的遥控讲话。怎么能让用户觉得跟机器交互得更加自然?这就是我们努力的方向。

大数据文摘:

深度学习的研究方法在NLP领域占主导地位,但大家也有些疑问——到底有什么进展?

聂再清:

我主要介绍三个方向的进展:

  • 神经机器翻译,深度学习的方法比传统研究方法有很大提高

  • 语言生成模型及其应用(写诗、写歌)

  • 语义理解——用深度学习来有效理解用户意图和实体抽取。具体来说,我们用递归神经网络去进行语义编码,再加上一层卷积层来看到更多的全局信息。这点具体可以参考我们在KDD 2017上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

    大数据文摘:

    目前在自然语言理解领域的研究存在哪些难点?

    聂再清:

    自然语言理解或者语意理解,到目前为止我觉得还是人工智能里面最需要突破的、最难的一个方向。

    首先因为自然语言有所谓“多样性”,同一个意思,有各种各样的表达方法。那你怎么能够穷举这个表达方法呢?我们有一些方法,但是还没有一个大的生态。这一块我觉得还可以做很多事。

    另外呢,自然语言还有一个“歧义性”,同样一种说法,在不同场景下有不同的意思。怎么去把文字放在不同语境下去进行理解。在这块还有很大的挑战。可以看一下我们在ACL 2016上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

    大数据文摘:

    如何看待“人工智能研究目前领先于产品落地”这一质疑?

    聂再清:

    其实现在人工智能有很多方面进入了产品,支付宝刷脸、AR试衣服都是人工智能的体现。人工智能通过技术转换,为产品的某个特征服务。任何东西要变成产品级,都要融入一些别的东西进来,因为产品需要获得用户的注意力和参与,让用户喜欢,这样才会产生数据。

    相比模型而言,数据更重要。Model可以简单也可以复杂,model的改变可能增加5%的准确率,但如果数据量级增加,即使简单的model也可能有很好的效果。作为一个产品,只有大家对你有兴趣,才会体验和反馈,这样我们才能更好地理解数据。未来,人工智能一定会越来越多地进入人的生活,也会掺杂传统的软件功能。

    原文发布时间为:2017-10-24

    本文作者:龙牧雪、魏子敏

    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

    相关文章
    |
    21天前
    |
    自然语言处理 API C++
    阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
    SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
    |
    2月前
    |
    机器学习/深度学习 人工智能
    打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
    【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
    36 1
    |
    15天前
    |
    人工智能 开发者
    人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
    论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
    25 2
    |
    17天前
    |
    机器学习/深度学习 人工智能 自然语言处理
    自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言
    自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言。本文探讨了深度学习在NLP中的应用,包括其基本任务、优势、常见模型及具体案例,如文本分类、情感分析等,并讨论了Python的相关工具和库,以及面临的挑战和未来趋势。
    41 1
    |
    1月前
    |
    人工智能 知识图谱
    成熟的AI要学会自己搞研究!MIT推出科研特工
    MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
    42 12
    |
    29天前
    |
    机器学习/深度学习 人工智能 算法
    基于AI的性能优化技术研究
    基于AI的性能优化技术研究
    |
    2月前
    |
    人工智能 自然语言处理
    召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
    【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p < 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
    45 6
    |
    2月前
    |
    人工智能 自然语言处理 机器人
    MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
    麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
    52 2
    |
    3月前
    |
    存储 人工智能 JavaScript
    根据Accenture的研究,CEO和CFO谈论AI和GenAI是有原因的
    数字化转型与当前GenAI领导者之间的关键区别在于,CEO和CFO(而非CIO)似乎参与了指导AI投资的过程。例如,Accenture在2024年1月报告称,到2023年底,在财报电话会议中提到AI的次数几乎达到4万次,因为C级领导层正在为“重大技术变革”做好准备
    44 1
    |
    2月前
    |
    人工智能 自然语言处理
    【NLP自然语言处理】NLP中的常用预训练AI模型
    【NLP自然语言处理】NLP中的常用预训练AI模型