阿里巴巴高杰：3年风雨路，阿里巴巴自然语音交互的探索与经验教训-阿里云开发者社区

摘要：随着语音交互、自然语言处理、多模态等技术的发展，人机交互方式已经变得越来越简单，目前人机交互已经成为行业最热的研究方向之一。那么，未来人机交互的发展趋势什么呢？阿里巴巴智能语音交互专家高杰在《云栖大讲堂第三期|未来人机交互技术沙龙》上为大家分享了在阿里巴巴智能个人助理构建过程中所积累的经验和教训。

数十款阿里云产品限时折扣中，赶紧点击这里，领劵开始云上实践吧！

本场技术沙龙回顾链接：大咖分享 | 人机交互技术需要什么样的创新？

演讲嘉宾简介：

高杰，智能语音交互专家，博士毕业于中国科学院声学研究所，现任职于阿里巴巴机器智能技术实验室语音交互组，有十多年的语音交互和机器学习的研发经验。现任职于阿里巴巴机器智能部语音交互组。致力于自然交互界面 (Natural User Interface) 的普适应用，主导多种设备 (汽车、电视、手机等) 的人机交互界面系统的架构和实施。

以下内容根据演讲嘉宾PPT以及视频整理而成（云栖社区做了不修改原意的编辑）。

d123febe13216f3b89f2370b6fe52bc036a06534

首先简单介绍阿里巴巴机器智能实验室语音交互组的概况：阿里巴巴机器智能实验室语音交互组大概是在3年前正式成立的，语音交互组自成立开始就带有两个使命，第一个使命就是致力于将人工智能中基本的语音能力，包括语音合成、语音识别以及其他基础的自然语言处理能力特别是语音交互技术相关的能力，沉淀到阿里云中作为普适的计算能力，提供给所有的开发者，并且使这样的技术成为廉价的、大家都能够用得起的云计算能力。语音交互组还与ISV一同构建了很多垂直领域的解决方案，包括法庭庭审、客户质检以及视频直播等。语音交互组的另一个使命则是致力于让每一台设备都能够具备人机交互的语音能力。本文也将主要为大家分享关于人机智能交互的部分，而这部分的主要载体就是NUI (Natural User Interface) 平台。

971bf5c84cb8c30003a7bf688851206a5c912178

缘起-智能个人助理

79b49d9a75cba9c8967dd2fc19a9886e85464c00

至于阿里巴巴语音交互组做NUI平台的初衷是非常简单的，就是实现智能个人助理。其实真正引爆智能个人助理市场的是苹果公司，2011年苹果正式发布了Siri，全世界民众第一次对于智能助理开始关注起来。当到了2014和2015年时，亚马逊和微软又分别发布了Alexa和Cortana，这就意味着语音助理开始从手机向其他设备迁移。2015年，阿里巴巴创建了现在的智能实验室语音交互组，也就开始跟随之前的企业构建类似的东西。

在2018深圳云栖大会上，阿里巴巴宣布开始全面进军IoT。IoT或者说基于设备的方向也成为了阿里巴巴的一个主要发展方向。其实NUI平台的想法和愿景也和整个阿里巴巴集团的战略是一致的，NUI平台的想法就是让每个设备都具有基于语音甚至是基于多模态的自然交互能力。

4a21b4b8017eef18a23ca72689e18d2e3102c626

NUI曾经支持的设备和智能助理

2a04159bbdb2aa032dc24e4ed34b678987083383

上图展现的是在过去三年左右的时间内，NUI平台曾经支持的设备，包括了手机、电视、天猫盒子以及机器人和汽车等。这里有几个比较有趣，比如阿里巴巴与上汽荣威合作的斑马智行系统，这个系统目前已经随着汽车在市场上大规模发售了；另外一个就是上图中右上角的多模态地铁售票机，这个项目中不仅包括语音模态，还包括视频模态等；最近的还有阿里巴巴与海尔合作的远场语音识别系统，其语音识别是基于麦克风阵列的，这个系统也将会在2018年5月份的时候在市场中大规模发售。

语音交互组在做了这么多的东西之后，也沉淀了很多的想法，所以本文的题目就叫做经验和教训，因为这么多的项目做下来发现有一些东西大家会很喜欢，可以在市场上进行发售，但是有些也就默默无闻，然后最终消失了。这是为什么呢？如何去思考语音交互？又应该如何使用语音交互构建出用户愿意使用的东西？这也是本文将与大家探讨的两个主要话题。

当谈论智能个人助理时，在谈论什么?
当大家都在谈论智能个人助理的时候，到底在谈论些什么呢？用真实客户的话来讲就是“我希望给我的设备加上AI”，可以看出在大众眼中的个人智能助理实际上就是AI。而智能个人助理到底是什么呢？其实智能个人助理是基于服务和自然交互的方式，为人提供信息、操控设备或者完成其他任务的产品形态，所以最终而言，智能个人助理是一款产品。

a24c825eb43027ff7be3e30ef3e59719987d6a46

上图就展现了智能个人助理的三个环节，最核心的大家所谓的“AI”部分就是中间的环节，其实际上就是一种自然交互的方式，这里所展现的就是非常典型的交互系统的流程图。智能个人助理的核心价值不在于它会为大家提供交互方式，而在于它会为大家提供交互的内容和服务，并且最终会落地到某一种设备上，以一种具体的产品形象来展示。

如何构建智能个人助理产品？
那么究竟应该如何去构建智能个人助理产品呢？下图展示了对于NUI的三种观点，其实应该从这三个角度来看智能个人助理。首先，最典型的角度就是将NUI看做机器学习系统，特别是一种统计机器学习的系统；第二个角度就是将其视作传统的软件系统，所以在构建智能个人系统的时候还需要关注软件工程的部分；而最后落脚到用户是否喜欢这个东西上，就需要将其视作一款产品，更准确地说就是互联网产品。

af69c5cef9e7b7a8fc22d7d1656ef6fa84b5ce03

NUI-机器学习系统
NUI是一个基于数据统计的机器学习系统。当使用统计知识解决具体任务的时候，首先要收集一部分任务相关的数据来训练出模型，之后将模型部署上去，最重要的是从整个部署过程中获取数据，进而去更新和迭代整个系统，这就是构建NUI平台的核心想法。这里首先需要注意数据任务的相关性。其次，需要从一开始构建系统的时候就要思考需要努力的方向、团队的能力分布，并思考如何构建这样的反馈闭环。

e80e8a8a92c1c113cbee392f09fc5131901e1006

NUI-软件系统
NUI也是一个传统的软件系统，需要经历从产品需求分析、系统设计，到编码实现、软件测试，再到系统维护的整个流程。首先需要将一个天马行空的想法变成一个现有技术可实施的设计，而现有技术本身会有很多限制，所以在这部分会产生很多的讨论。后面则是具体的编码实现，以及为了保证软件质量的测试和系统维护工作等。这些虽然是老生常谈的工作，但是这些都是在构建实际系统中必不可少的环节。而NUI系统的构建实际上也会与传统软件系统的构建有些许不同。

b31efccb678b23d8c9285853621e26846ab23e8a

NUI-(互联网)产品
最后，NUI也是互联网产品，而作为产品则需要去考虑其核心价值是什么。NUI作为一款产品的核心价值就是帮人类完成任务，查询信息，操作设备。如果一款智能个人助理产品不能提供这样的核心价值，那么就难以被用户接受。在有了落地场景和核心价值之后，还需要标准来衡量产品优劣，因为NUI的核心诉求是帮助人类完成任务，所以最终的衡量标准就是任务完成率和交互的速度。最终NUI还是一款产品，对于产品，特别是互联网产品而言，产品经理们经常向其中添加新的特性，下图中就已经展现了市面上语音交互系统中经常定义的产品特性，而具体如何实现这些特性都是开放性的。

42ad731bfe7a9f3e43d6dcd5749de0f35ad24849

NUI的设计与实现
前面分享了NUI的三个观点和其核心诉求，接下来分享究竟应该如何实现NUI。
NUI: 架构Quick Recap

c235bbd76f41b512e65c353fc7ca78d707d89254

在NUI架构设计中，首先需要有设备，因为NUI的核心是需要人通过语音与设备进行交互，比如面对一台海尔电视，用户的一个样例指令就是“你好电视，我想看烈火如歌”，然后电视就会回答“为你找到烈火如歌，请观看”，这样一个短短的对话中其实就完成了用户与电视语音交互的过程。首先通过麦克风阵列收取用户语音，其次通过信号收集的算法来降低周围的噪声对其的干扰，“你好电视”就是一句所谓的通用唤醒词，就如同“Hi Siri”一样会唤起设备。之后用户所发出的任何语音就会经过语音识别转化成文字，并且通过自然语言理解来分析出用户的意图，最后查询服务并且给出提示，并在电视上面播放节目，这就是比较简单的人机交互流程。

模块：拾音技术
在音频采集或者音频收集部分会需要用到拾音技术，这是因为在人和设备交互的过程中往往会受到各种各样的噪声干扰，比如在和设备讲话时正好旁边有其他人在讲话，也可能会是因为房间布局造成的一些反射声，此外还会有一些其他的干扰声，比如在看电视的时候旁边的空调声音以及冰箱声音等，这些噪声都会对于设备收集人的指令声音造成一定的干扰。

01ac57ce8281d7026065dbd1f95ecfdf4132159d

在拾音技术部分，通过阿里巴巴近几年的技术积累，语音交互团队已经具备了自主设计拾音硬件的能力，包括目前非常流行的线性阵和环形阵的硬件设计能力，以及配套的前端处理算法。

80378e8ce693a38759a9284fc5c6262cebf2368e

模块：信号处理
对于信号处理算法而言，可以通过举例来说明。通过这里的例子可以为大家解释在语音交互中使用最多的拾音算法。

70e75c41b13e0c61b7de1df7e1d41d8a6c795574

第一个算法叫做固定波束形成技术，这个算法很简单，如上图左侧所示，设备将会在固定方向划出一个拾音区域，人站在区域中所发出的声音指令才能唤醒设备，其他地方的声音则不能影响，也就是说其他的干扰源就会被屏蔽掉，用术语来讲就是空间滤波技术。另外一个比较有趣的算法就是声学聚焦技术，相比于空间滤波技术会划分出一个区域，声学聚焦技术则通过辅助定位装置比如摄像头或者麦克风本身的定位算法将人定位在如图右侧所示的某一区域，不仅仅可以测定方向，还可以测定距离，可以将收音区域限制在一个小范围内。这个算法就应用于了地铁售票机中，通常情况下大家需要排队购买地铁票，一个人在买票时，其他人都会排在其后面，那么这种情况下空间滤波技术所划分的固定方向区域就完全没用了，而使用声学聚焦技术则可以有所帮助。

模块：唤醒技术
语音唤醒其实就是上述所提到的像“你好，电视”或者“Hi Siri”这样的语句，关于语音唤醒已经有很多的文章在讨论技术细节，本文不再展开详细的讨论，只是去分享语音交互组所做的一些东西。首先，语音交互组在建模算法中使用了自己所实现的声学建模算法cFSMN with MFP。除了复杂的算法，唤醒技术另外一个大的挑战就是需要运行在设备本身上面，而设备本身的计算能力是非常有限的，那么就需要降低计算量，所以还实现了基于算法的低bit压缩技术以及芯片级的计算优化。除了端上算法之外，还需要特别关注准确率，所以还在云端实现了二次确认，这也是目前主流厂商的做法。

1a1ade253d7595b8eda54d42b7d5a3ac259f5805

模块：语音识别技术
阿里巴巴在语音识别方面的积累也更多一些。目前已经实现了几代的模型迭代，从最开始标准的深度神经网络，到Latency-Controlled BLSTM (LC-BLSTM)，到最近提出的第三代:Lower Frame Rate (LFR) Model。Lower Frame Rate Model实际上是对于第二代技术的改进，第二代技术会带来很好的准确率的提升，而在第三代模型中则更关注计算量以及资源消耗。而在第四代则是将Lower Frame Rate Model和更好的建模技术融合到一起，结合Multiple Frame Prediction技术进一步降低计算量。大家也可以从语音识别技术模型的演变中发现其中的关注点，一方面就是在准确率本身，会使用更加准确的序列模型；另一方面则更加关注计算量和资源消耗，这会和某些产商或者公司的想法不一致，很多公司的想法就是使用更加昂贵的机器来支撑服务，而阿里巴巴的想法则是既需要考虑准确率又需要考虑低计算量。这与语音交互组的使命是一致的，需要做到准确率比较高并且成本很低，让大家都能用得起。

cb4179412891a1bd62f2877b95e8ad5dbd3504cb

模块：自然语言理解
下图所展现的是阿里巴巴NUI平台的自然语言处理框图，基本上是规则系统和统计系统的串行系统。这里关于使用规则系统还是统计系统存在很多争执，而阿里巴巴实践后总结出的经验却表示两种系统都不可少。规则系统一般比较准确，特别是系统刚刚开始运行，也就是冷启动什么数据都没有的时候，可以迅速地编写一些规则使其快速上线，这是一个非常好的做法。而当数据积累比较多的时候，可能就会倾向于使用统计系统完成任务。

d84784dc65d3835279d4fe14a505646a866c6171

自然语言处理的核心任务就是抽取分类，抽取用户所发出的语音指令到底出于什么样的意图，比如“我要看烈火如歌”这句话的意图就是去看视频，另外会有一些命名实体或者核心的属性需要将其抽取出来，比如上述语音指令中的视频片名就叫做“烈火如歌”，这就是如今比较常用的做法。图中最右边的部分叫做Systematic Frame，也是目前最主流的语义表示方案。

模块：对话引擎
最后，在对话引擎部分，实现了对话的逻辑和引擎的分离。首先会有一个对话解释器，其次对于每个任务会有自己的脚本，此外还会通过外在的方式与服务打交道，因为所有的和服务、资源以及内容打交道的都在对话这部分中完成。阿里巴巴会将对话引擎这部分做的比较灵活，方便于第三方开发者以及合作方在其上进行自定义，当然为了使得合作方完成的工作更加符合预期，这里也会给一定的监督。

99cf46a05df9a9042466d1c916b00de67cd82714

对于前面所论述的单点语音技术，阿里巴巴智能实验室语音交互组发表了很多文章，这里给出部分论文列表。

fd6f091c8530739d458fb594c5fb7057652b1c04

关键字1：打通
前面简单介绍了NUI平台各个的模块。那么是不是将这些模块进行简单的插拔就可以了呢？当然不是，所以在本文中所分享的经验和教训中的第一个关键词就是“打通”。

595452efe84e5df41e5ba96d77140e1dc06a396d

打通的原因大致有两个，一个是技术是有限的，在设计产品特性的时候必须要考虑技术的有限性。技术模块不够成熟，很多时候模块的准确率都不够高。其次还会受到各种各样的限制，比如在设备端上面，依然有一些低计算量的设备，而业务方却希望在设备之上实现更多的功能，那么如何在功能和计算量之间进行平衡也是需要考虑的内容，需要多个模块相互配合才能解决。其次就是产品经理会提出各种奇怪的需求，比如快捷唤醒、Oneshot识别、智能定向、声纹支付等。但是想要完成这些都是比较困难的。

打通：算法模块的边界
接下来分享车载智能定向的例子。阿里巴巴的车载智能定向功能是装载在荣威的实体车里面的，斑马是阿里巴巴投资的一个方案提供商，斑马为荣威汽车提供了车载智能系统解决方案。其车载智能系统的唤醒词是“你好，斑马”，下图中的草图大概代表了汽车内的四个位置，当主驾驶说出唤醒词之后，车载系统将会首先给出定位提示，当主驾驶唤醒了系统并发出打开车窗的命令，那么则需要打开主驾驶位旁的车窗，而副驾驶说打开车窗，则会打开副驾驶位置的车窗。

59a33997c07f484be3d1797437f0e8f7cec688d2

这部分所使用的技术就像之前所提到的固定波束算法，但是仅凭该算法却无法完成这样的任务。这里基本的算法就是通过麦克风阵列的收音基本确定唤醒的方向，基本处理就是固定波束加上人声检测以及唤醒三个模块的打通，而信息流也不是单向的，可能需要返回来。而且需要经过大量的调试工作才能实现这样的功能，但是这样的功能在装载到实体车上之后，大家觉得是最有趣的并且感知度最高的特性。这里就是打通算法模块的边界，在例子中必须打通信号、人声检测以及唤醒模块之间的边界，相互融合才能完成这样的小功能。

打通：算法和产品的边界
另外一个案例就是电视“免唤醒”，当然这里的“免唤醒”并不是真正的不需要唤醒，而需要使用前缀“我要看”。从技术的角度而言，“我要看”可以视作一个唤醒词，但是因为太短了，所以不敢用，可能会导致误唤醒率太高，但是产品经理还是要求实现，所以经过了技术与产品之间的讨论和妥协，最终设计出的技术方案就是打通整个链路，当发出“我要看XXXX”的时候会在界面上有所提示，也就是预唤醒阶段，同时会走完整个交互的流程，一直到确定收到确切的结果时才会进行展示。通过加上预唤醒阶段，不仅可以有效地降低误唤醒率，并且不会让响应时间延长太多。这就是打通算法和产品的边界。

e56300fcb37d57ba8241c2f2ed04111ce7a4d493

打通：科学家和汽修工的边界
最后，也是最重要的就是在构建系统时需要打通科学家和汽修工的边界。其实在构建实际产品的时候，仅仅依靠很牛的技术和模块是不够的，必须放下科学家的架子，跑到场景中解决各种各样的实际问题。

072adedef9e13bb98c298e8ee77c93de34923fb5

关键字2：测试

测试：工程质量

dc17487e8691f81d038c176e160454ecb19c1267

系统交付也是软件工程中的概念，而这里的关键词就是测试，对于测试而言，有一些比较传统和经典的指标是大家所比较关注的，比如系统的稳定性、内存以及CPU的耗费以及移动设备的流量耗费，包括服务器的可能承受能力、并发度等。而人机交互是为了帮助人类完成任务，所以整个交互的延迟也是非常重要的。此外，一个比较有趣的就是异常的调用序列，调用任何一个比较长的链路就会有一系列的事件发生，如何保证序列的有效性，将事件串起来是交互设备端上需要注意的部分。

测试：概率(不确定)系统的确定性

7b9fa682f502f65f3b8660507a66dba635b37066

NUI平台的测试与传统软件系统中不太一样的地方就是交互系统是机器学习系统、概率系统的串联，每个模块都是具有不确定性的系统，都可能是不靠谱的东西。那么如何在这一堆不靠谱的东西中做出一个看似靠谱的系统呢？这就需要做更多的测试来保证。首先，需要对于各个模块需要设定严格的准确率测试指标。仅有模块准确率指标还不够，需要打通来看，需要实现端到端的测试，模拟人机交互的过程，如果能够构建一个自动化测试的工具就比较好，如果不能则需要投入更多的人力进行主观的测试，找到现有系统中的问题，才能保证整个系统的可用性。关于测试的第三点就是匹配产品特性的测试，这部分与NUI产品本身相关，因为产品经理会有很多想法，为了如何保证每个产品特性都被实施下来，需要根据产品本身思考很多的测试方法来保证质量。比如对于唤醒词而言，就需要做安静测试、有音乐回放的测试以及有外界噪声的测试，以及在汽车中需要进行定向测试，保证一个方向发出语音指令，另一个方向的语音不能进来，包括之前提到的免唤醒词，这每一项都需要详细地测试才能保证整个系统交付出去才是正确的。

关键字3：FBL (FeedBack Loop)
在这部分的关键字就是FBL (FeedBack Loop) 反馈闭环，这个与之前提到的NUI平台的三个观点是相符的。第一个观点就是NUI平台是一个机器学习系统，这个机器学习系统是一个非常典型的有监督的反馈闭环，必须进行训练、上线、拿到数据标注，再去重新训练。每个模块都需要思考如何去构建反馈闭环，包括语音识别是否需要标注语音数据来更新声学模型，是否分析线上Query情况爬取更多的语料来更新语言模型。对于自然语言理解，现在最大的问题就是覆盖度不够，用户会有很多奇怪的说法以及正确的意图，并不能被捕获到，而需要从日志中挖取这些，如何构建反馈闭环都是开放性的问题，也是非常困难的。对于语言合成而言，为了使得语音更加好听，比如天猫精灵会拉去实际的数据进行分析，针对数据进行特殊的优化使得语音更加好听。唤醒以及后面的数据源都在跟随整个流程，分析线上的数据并进行相应的迭代。

c97d4f5accdc51564df266ed13868466a6cbfbfb

那么究竟应该如何实现FBL呢？其实在开始设计系统时就必须要有这样的想法，在设备上做足够的埋点，这些埋点不仅是传统的关于设备的，比如每天有多少激活，设备的信息是什么，还需要对于交互的过程做一些设计，比如什么时候进行唤醒，唤醒词是什么，语音识别的结果是什么，自然语言理解的结果是什么以及用户后期做了什么样的行为都需要被记录下来送到云端的日志系统中。在云端需要基于这些数据构建足够好的查询与分析工具找到问题所在。对于自动化的训练平台而言，首先横向的项目很多，另外作为互联网公司，迭代率非常快，快速地生成并且迭代自己的模型是非常重要的，语音交互组几乎在每个模块上都花费了很大的精力来构建自动化的训练平台，有了数据之后能够实现迅速迭代，越来越快地进行迭代，迭代到足够好。另外一方面就是部署，部署上因为背靠阿里云，所以会有很多好用的工具，可以利用这些工具实现快速部署。

dca49eac734d30af5a3401e1e2919f633cadfd8d

前面与大家分享了如何构建一个NUI平台，总结而言就是首先需要有一个基础模块，其次需要将模块打通，打通模块之间，打通模块与产品，打通高大上的人与实际问题的边界。其次，在整个实施过程中需要思考各种各样的方法来保证工程质量以及准确率。第三点，如果做出的系统受到大家的追捧，就必须持续地进行迭代，在开始设计时就需要思考如何构建系统反馈闭环，包括埋点、查询以及模型迭代的过程，这些都是实施一个好的NUI产品或者智能助理产品的必要步骤。

NUI的未来
目前NUI的主流厂商都在将平台变得更加开放。阿里巴巴也希望将自己的NUI平台做成一个普世的、完全开放的平台，这也是接下来需要努力的方向。首先就是将NUI平台在各种各样的设备上都实现可复制并且具有落地的能力。其次，因为现在的全链路都可以定制，那么目标就是实现完全开放，包括硬件设计都可以开源；唤醒词现在可以定制，未来则可以自由设定；而在语音识别部分，阿里巴巴是走在最前沿的，现在对于阿里巴巴的语音识别模块而言，除了必须要使用云服务之外，声学模型和语言模型都可以自己定制，这也是其他厂商难以实现的，而至于其他模块在未来也希望能够做到像语音识别这样的程度，这样整个链路都可以被第三方把控，极大地提升平台的开放性。并且还需要将模块融合在一起，将这些产品的优秀特性都做成一个完整的解决方案，当开发者装上SDK之后就可以享受到全部的特性，同时可以在其上进行自由修改。

a2e8fc5f1987a764fb8dd3db8da8eb1a1ef09dcf

NUI-更加自然的交互
NUI未来会具有更加自然的交互能力，大致会有三个方向，第一个就是多模态，目前阿里巴巴也已经做出了一个尝试，就是最近在上海发布的地铁售票机，这个是真的免唤醒的，因为其上有摄像头，用户可以直接走到售票机前说所需要购买的票即可；另外一个自然交互的方向就是个性化和场景化的方式，目前阿里巴巴也做了一些比较好玩的尝试，比如在打开车窗是车控里面常用的操作，而在整个的对话系统中，不仅需要考虑车控本身，而需要根据所在的位置以及外面天气的情形等信息来提示用户是否应该打开车窗；最后一点就是主动交互，其实主动交互目前并不成形，大家的手机每天弹出很多弹窗的时候虽然也叫作主动交互，但是却是很恼人的主动交互，究竟应该在哪些设备上做有用的主动交互也是极具挑战的问题，需要小心地尝试产品的特性，看看是否真的被大家接受了。而除了产品设计方面，主动交互还存在一些技术难点，这部分可以视为更自然交互的下一步。
本文由云栖志愿小组贾子甲整理，编辑程弢

阿里巴巴高杰：3年风雨路，阿里巴巴自然语音交互的探索与经验教训

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料