上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络复杂,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。
本文邀请到iDST智能语音交互团队负责人鄢志杰,与其深入探讨了下一代语音人机交互方案背后的项目背景、技术解读、功能实现、落地应用等细节问题(鄢志杰将在云栖社区主办的云栖大会北京峰会开发者进阶专场上进行分享,对人工智能、智能语音交互技术感兴趣的读者可以来现场与专家互动)。
阿里巴巴iDST智能语音交互负责人鄢志杰
项目背景
作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过1100万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、374个站点,线路总长617公里(含磁悬浮),而预计到2020年将达到800公里。如此繁重的客流压力下,自然带来了技术升级的智能化购票需求。
鄢志杰表示,以往乘客需要依次选择线路、站点、购票张数,购票步骤极为繁琐;而且在乘客事先无法得知具体线路和站点的情况下,只知目的地却不知应坐到哪一站、如何换乘。阿里巴巴与上海申通地铁签署的全面合作战略协议,就是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互方式实现在地铁售票机上快速、便捷的购票操作,这些操作包括指定站名或票价购票、目的地模糊搜索购票等功能。
事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;并且随着达摩院的成立,越来越多的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一个略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一开始,只有很少的“特种部队”投入到关键技术的研发,这其中就包括此前刚刚加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;同时,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。
“这个孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声复杂环境,加上上海地铁的线路复杂性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。
技术解读
上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互解决方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。
鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中包含了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。同时,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。
目前,项目实现的具体功能包括有:
1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。此次针对地铁强噪声环境,项目首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。并且,针对地铁售票机的时变空间,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。
2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,能够自动检测乘客走近售票机的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。
3.支持复杂口语理解并自我进化的对话系统:用户面对机器表达时往往存在语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机能够理解这些口语化表达,并不断从乘客真实对话模式中进行自我进化,变得越来越智能。
“下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,其他重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。
应用前景
历时短短半个月的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。
对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地,而未来阿里巴巴将会将这项技术带入人们的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。
作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的同时,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景也有成功应用。
“接下来,阿里会与申通集团一道,将上海地铁语音售票概念机迅速推向实际落地。”最后,鄢志杰如是说。