荣威RX5与阿里智能语音的“修行”故事

简介: 本文由阿里巴巴iDST智能语音交互总监、资深专家鄢志杰在2017年12月19日北京云栖大会分享。百箱大战,打开了智能语音人机交互模式的新应用,也把语音交互技术推到了风口浪尖上。荣威RX5互联网汽车8月份销量2万辆的优异成绩背后,阿里智能语音交互团队又做出了那些贡献?又有那些业务逻辑和经验可以分享?下面就来听听鄢志杰来讲述。

以下为精彩视频内容整理:


阿里智能语音交互团队的成果展示

阿里的智能算法团队是从2014年底正式开始起步的。3年的时间里,在商业及公共场所方面,团队做了有全国近300家法院已经投入使用的智能语音庭审产品、包括2016年杭州云栖大会等系列100多场大会的实时字幕语音产品、超过10家企业使用的节省70%人工审核成本的视频审核产品,还有使用时长超过1千万小时的智能语音客服机器人等产品;在用户方面,团队还做了NUI(Natural User Interface)自然交互平台系列产品,例如和海尔合作的海尔人工智能电视、和上汽合作的荣威RX5互联网汽车、前不久上线的上海地铁语音售票机等产品。

e403db6ba7ede7d1c2232e3f2247923af75bf56f

智能语音交互技术是什么?就是通过说话,让阿里所掌握的导航和音乐等线上应用,和用户的手机、电脑、汽车等终端进行联动的技术。阿里智能语音交互团队在成立初期的发展方向有两个,一个是快速占领市场,另一个是开发全链路完整有效的技术。如果要求快速占领市场,一些关键的环节上不可避免的需要使用市场上已经发布的技术。

运用成型技术的好处是开发速度快,坏处是遇到技术壁垒时解决问题程序复杂,并且拼凑出的产品很难达到最好的运行效果。如果要求完整的技术能力,那么团队的组建方面短时间很难达到成型产品的要求。

幸运的是从语音团队组建到项目运行,我们走了一条速度快同时技术比较完整的路。从麦克风的硬件设计到具体的产出,都有阿里自己人在做全链路投资。虽然过程很痛苦,招聘也很困难。但是我们找到了愿意跨界到互联网公司的科学家、甚至是物理学家,让他们融入团队并且在团队中发挥独特的价值,是相当不容易的事情。团队经过三年时间完成了技术的全栈积累,让每一个关键的任务点都有相应的顶尖人才在把控对应工作。

回到进行智能语音交互的初衷——做可以落地实施的人工智能,我们可以从技术、产品、商业这三个维度来进行思考和分析。后面我会以荣威RX5互联网汽车作为案例,讲解如何在团队实践下把这三个维度有机的串联到一起。


荣威RX5背后的技术、产品和商业实践

什么是技术型团队?就是团队能通过努力去拥有完全自主可控的、世界一流的技术点,并且把技术点串联起来去持续的创新技术和产品。技术占最小区域的意思是技术不是万能的,但是没有技术也是万万不能的。第二个是产品,光有高技术是不可能做出一个高质量的产品,落地实施的过程中各种细节当中的魔鬼会一一显现,这是团队实施过程中的深刻体会。以语音交互为例,特别需要有业界顶尖的交互设计师或者产品经理把现有的技术组合成一个用户认可的产品,可偏偏这样的设计师和产品经理少之又少。很多产品经理不是语音交互行业出身,他们往往从常识方面去设计语音交互产品,但这样设计的背后是缺乏理论基础的。同样缺少的是能落地的科学家技术团队。最后是商业,好的产品是要被市场所检验的。回到语音交互行业,百箱大战——一百个智能音箱的战争,大家是否思考清楚做这个产品的初衷,定价定在哪个范围,市场容量是如何,怎样通过供应链等完全非技术手段减低成本?这些问题要在做产品之初就思考清楚,正所谓谋定而后动。

de8b32f0068e82a061b8f71650bb9b1ce9edc282

荣威RX5互联网汽车是阿里和上汽合资成立的斑马网络做出的新型互联网汽车。这个汽车在8月份销量2万辆,同比增长143%,已经成为现在互联网汽车行业的标杆型产品。我们就荣威RX5为例,来讲述技术、产品、商业这个闭环在阿里的实践和思考。

从商业方向考虑,阿里一开始就打算直接造自己的汽车,因为我们相信平台公司的价值。阿里和上汽合作成立了一家合资公司——斑马网络,专攻车载智能系统。这样的模式反而能发挥云+端的各种优势——端上有上汽,云上有阿里。

2963f8835a60c63b0a85d9ff10defdc15075c418

三年前的一次头脑风暴成就了荣威RX5,也奠定了互联网汽车的基础轮廓。现在看来特别自然的产品形态在三年前初创时期还是冒着很大风险的。首先我们确定了车的定价:10-15万,这是一个很重要的因素。第二步确定了车型是SUV,而不是轿车或者其他车型。现在数据显示SUV品类在中国的畅销程度是空前的。第三步是确定互联网汽车应该具有哪些功能?团队选择随时在线、地图即桌面、全语音操控这三项基本功能。荣威RX5是沉浸式开发,采用地图即桌面,其他功能全部使用在线语音小助手对用户进行服务,实行全语音操控。通过运用技术,汽车终端和云上的地图、音乐、电话等功能相连接,经过“技能”在云端不断升级和进化,使得产品越来越受到欢迎。

第一代机车由于阿里语音团队刚刚建立来不及进行技术攻克,所以当时选用了世界上最成熟的第三方vendor提供的语音交互技术。真正使用阿里技术的是第二代机车。自主开发的好处当然不言而喻,诸如独立自主、说干就干、响应快速、成本优势、云端不断解锁技能等。但是马车不是吹跑的,项目实施过程中问题也会接踵而至。自主需要勇气,同时也需要底气。做车载的技术替换,仅仅复制上一代车的能力远远满足不了用户和老板的需求。这就给技术团队提出了很大的挑战,不仅要迅速的追上第一代机车的技术能力,甚至还要在某一些方面超越之前的技术,要有亮点。通过技术团队的详细分析和梳理,团队发现上一代机车最大的痛点就是只有主驾驶可以使用全套的语音操控系统,副驾驶的唤醒完全不起作用。第二代机车针对这个痛点,做了主驾副驾均可使用功能。技术的关键点是主驾副驾需要互不干扰的进行语音交互,例如坐在副驾驶位置上的人正在进行电话沟通,坐在主驾位置上的人可以完全不受影响的对互联网车发布指令。在如此狭小的空间内,做到这一点需要非常强的信号处理能力。通过把第二路的声源作为噪音去处理,达到不会影响第一路纯净信号指令能正常操作的目的。

5fe2f5010b68c0e4cbb668ca24d956415cc5f444

更大的难点集中在整个的系统升级过程中硬件设施是不允许升级的。我们在封顶的左边和右边分别设置两排麦克风的阵列作为收集信号装置,分别指向主驾驶和副驾驶。指向主驾驶的时候,副驾驶作为干扰源,把实时收集信号中作为干扰源的部分减掉。于是这台机器可以耳听两方,同时监听两路信号。整个运算力通过low frame rate 声学模型的分解在完全没有硬件升级的状况下降低运算量,让车载系统的召回率和误唤醒的指标不会有明显的变化。

第二代机车还升级了比如兴趣点的全语音搜索,one-shot命令直达,还有互联网的迭代更新等功能,可以让汽车变得越来越好玩。

最后进行落地实施过程中,团队成员们能够通过自己的实践和能力把在天上红红火火的AI变成底下实实在在的产品,是一门很深的功夫。阿里讲究落地实施,对团队的成员基本要求是科学家要会“武术”,不但要研究和开发做的好,同时落地的本事不可少。这就是阿里语音交互团队的“武术”修行之路,时间不止,交互不休,希望演讲能给大家带来一些思考和共鸣。

本文由云栖社区志愿者小组王晓慧整理,毛鹤审校。编辑:郭雪梅。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
JSON 编解码 自然语言处理
阿里智能语音交互文档操作教程
ASR :语音识别服务,提供语音转文本服务。 TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。 NLU :自然语言理解服务,提供自然语言处理功能。
1486 0
|
机器学习/深度学习 存储 人工智能
6年前布局,如今阿里智能语音成行业第一,我们的快递、客服都离不开它
2014年,阿里巴巴悄悄启动了智能语音项目,6年过去了,它长大成了国内第一。国际权威调研机构IDC公布《中国AI云服务市场半年度研究报告》,阿里云云上AI表现出色,其中语音AI在智能语音、对话式AI两个领域拿下市场份额第一,市占率分别为44%和57%。
1762 0
6年前布局,如今阿里智能语音成行业第一,我们的快递、客服都离不开它
|
机器学习/深度学习 人工智能 自然语言处理
阿里初敏博士:解读智能语音如何在客服智能化上落地?
你是否对2016年云栖大会现场直播的实时字幕好奇?是否想了解语言方面的智能化怎样与客服相结合,怎样在客服智能化上落地?其实,收集数据是我们面临的最大挑战,这是时间、人力成本等的核算的问题。技术上,任何一个语言,包括英语、汉语、方言等等,难度差别并不多,识别相对简单,难点在数据。
7738 0
|
人工智能 自然语言处理 人机交互
阿里智能语音平台助力人机交互
在云栖大会上,天猫精灵幕后团队——人工智能实验室的聂再清为大家介绍了语音交互平台的运作机理和完善方法。在智能化普及程度逐渐加深的当代,人机交互也就成为了丞待解决的问题。为了解决这一难题,阿里巴巴的人工智能实验室对智能语音交互平台进行了深入研究和全面优化。
2696 0
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44606 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
122 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
764 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
666 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
711 0