都说聊天机器人已经能够与人正常交流了,可事实真是如此吗?
近日,针对聊天机器人“自然语言理解”的“威诺格拉德模式挑战赛”(Winograd Schema Challenge)落下帷幕。而在结果展示中,聊天机器人们的表现显得不尽如人意,令人唏嘘!
一次人工智能热,各巨头纷纷“入水”
事实上,“聊天机器人”这个概念从上个世纪八十年代就出现了,而世界上第一个聊天机器人“阿尔贝特”也诞生于那个时代,但相较于现在的聊天机器人而言,那时的机器人还不能归属于“智能”一列。
自AlphaGo引领“人工智能”热潮后,人们对聊天机器人的深度挖掘与探索也由此展开,其中当属佼佼者的主要是谷歌、Facebook、微软、苹果、亚马逊等企业巨头。
现在,iOS用户在无聊的时候,可以随时掏出iPhone手机,然后对Siri进行各种调戏;而安卓用户也可以在多个谷歌应用内呼唤谷歌助手;打开Windows,就会有Cortana(小娜)为你提供各项服务;Facebook也为自家产品配备了聊天机器人,更是推出了针对商家的聊天机器人Slackbot;此外,人们懒癌发病的时候,只要对着亚马逊Echo喊话就可以控制家电。对于现下这种局面,只能说聊天机器人真可谓无所不在。
一场挑战赛,打破聊天机器人泡沫
当前,不管是国外还是国内,越来越多的聊天机器人被相继推向市场,伴随着在图像和语言识别领域取得的巨大进展,人们很容易产生机器在理解语言方面已经十分厉害的错觉。然而现实给了人们重重一击。
近日,一场名为“威诺格拉德模式挑战赛”(Winograd Schema Challenge)的竞赛落下帷幕。这场竞赛是图灵测试的变种,要求人工智能回答关于语句理解的一些常识性问题,由加拿大多伦多大学的计算机科学家赫克托·莱维斯克(Hector Levesque)发起。
以问题“市议员们拒绝示威者的游行许可,因为他们害怕暴力”为例,按照威诺格拉德模式挑战赛的风格,该问题包含了几个重要的部分:
首先,具有同类语义的两个名词(本题里指的是:市议员们和示威者 )
第二,有一个指代以上两个名词的模糊代词(本题里指的是:他们)
第三,有一个特别的单词,当这个单词被换成另外一个单词时,那么模糊代词的意义就会改变(本题里,如果把“害怕”换成“主张”,那么句子里的“他们”的意思就会发生改变)
基于此,计算机需要回答的问题就是:这个具有模糊含义的代词指的是什么,并给出两个选项让计算机选择。
根据研究,在人类胡乱选择的情况下,该问题答对的概率是45%,而这次竞赛的结果显示,人工智能最好的结果也只是48%,那高出来的3个百分点完全可以忽略不计了,最为值得思考的是,这个成绩的拥有者还使用了最前沿的机器学习方法,如果这个成绩真的代表了当前聊天机器人的水平,那离理想中的“聊天机器人”还远着呢!
面对现状,探索聊天机器人未来趋势
有心人会发现,在上述比赛中,谷歌、Facebook等巨头并没有加入,虽然他们正在将注意力转向自然语言理解,并多次暗示已取得了非常大的进展,但有个事实不得不提,此前在Facebook聊天机器人的用户体验上,有用户问它是否能够推送科技新闻,而其反馈的却是一则澳洲树袋熊的新闻,这两者完全相差了十万八千里。因而,在自然语言理解上,科技巨头也有很长的一段路要走。
不管是竞赛结果,还是用户体验,目前聊天机器人的水平还不能完全达标,而对于未来的发展趋势,它们还需要解决几个问题:
首先是对自然语言的理解。既然是聊天机器人,就得会“聊天”,而聊天这一技术活儿的基础就是对语言和句子的理解。这是当前最需要解决的问题,也是最难解决的问题,毕竟手动编码输入这些知识需要花费的时间不可想象,而且用数据统计的方法来学习真实世界的知识对于计算机来说也十分困难,但为了打造出一个真正意义上的“聊天机器人”,这个问题将是接下来研究员们所关注的重点。
其次是对语言的记忆。在一段自然谈话中,人们常常以一个字或几个字来指称此前所说的一件事,从而就会出现模糊指代。这种时候,聊天机器人就必须能够清楚理解这个词的指代对象,这就需要它们通过深度学习,从而按照语义的逻辑关系正确带入指代对象,毕竟没有人希望自己在交流的时候还需要将每件事重复解释十几遍的。
最后是聊天机器人的语音识别技术。的确,如今机器人的识别技术已经很先进了,譬如聊天机器人小娜就已经学会了30多种语言。但在这里,有个细节需要我们注意一下,那就是口音的问题,比如一个泰国人通过说英语与小娜进行交流(小娜还不会泰语),在严重的口音干扰下,聊天机器人真的能够听得懂用户在说什么吗?