专访鄢志杰:地铁进入语音购票时代,深度解读下一代人机语音交互技术

简介: 阿里巴巴达摩院携手上海地铁开展了地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络复杂,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

本文邀请到iDST智能语音交互团队负责人鄢志杰,与其深入探讨了下一代语音人机交互方案背后的项目背景、技术解读、功能实现、落地应用等细节问题(鄢志杰将在云栖社区主办的云栖大会北京峰会开发者进阶专场上进行分享,对人工智能、智能语音交互技术感兴趣的读者可以来现场与专家互动)。

d5bc15922a78e883f9165a7242eb29659665f38c

阿里巴巴iDST智能语音交互负责人鄢志杰

项目背景

作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过1100万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、374个站点,线路总长617公里(含磁悬浮),而预计到2020年将达到800公里。如此繁重的客流压力下,自然带来了技术升级的智能化购票需求。

鄢志杰表示,以往乘客需要依次选择线路、站点、购票张数,购票步骤极为繁琐;而且在乘客事先无法得知具体线路和站点的情况下,只知目的地却不知应坐到哪一站、如何换乘。阿里巴巴与上海申通地铁签署的全面合作战略协议,就是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互方式实现在地铁售票机上快速、便捷的购票操作,这些操作包括指定站名或票价购票、目的地模糊搜索购票等功能。

事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;并且随着达摩院的成立,越来越多的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一个略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一开始,只有很少的“特种部队”投入到关键技术的研发,这其中就包括此前刚刚加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;同时,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。

“这个孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声复杂环境,加上上海地铁的线路复杂性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。

技术解读

上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互解决方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中包含了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。同时,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。

目前,项目实现的具体功能包括有:

1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。此次针对地铁强噪声环境,项目首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。并且,针对地铁售票机的时变空间,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。

2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,能够自动检测乘客走近售票机的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。

3.支持复杂口语理解并自我进化的对话系统:用户面对机器表达时往往存在语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机能够理解这些口语化表达,并不断从乘客真实对话模式中进行自我进化,变得越来越智能。

“下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,其他重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。

应用前景

历时短短半个月的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。

对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地,而未来阿里巴巴将会将这项技术带入人们的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。

作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的同时,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景也有成功应用。

“接下来,阿里会与申通集团一道,将上海地铁语音售票概念机迅速推向实际落地。”最后,鄢志杰如是说。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12209 116
|
2月前
|
Ubuntu 机器人 语音技术
语音识别与语音控制的原理介绍
硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载音频驱动,设备启动之后只
202 83
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
24天前
|
Ubuntu 机器人 语音技术
语音识别与语音控制
【10月更文挑战第4天】硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载
|
2天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
13 0
|
22天前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
24 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
3天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
8 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
86 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
93 1

热门文章

最新文章