搜狗的人工智能研发与应用：让技术在产品中创造更多用户价值-阿里云开发者社区

微信图片_20211126212633.jpg

王砚峰，搜狗公司桌面事业部高级总监，桌面研究部和语音交互技术中心负责人

机器之心：搜狗是何时在人工智能方面开展研究的？

王砚峰：现在提到人工智能可能大家首先想到的就是苹果的语音助手 Siri，之后国内外各大公司也都在这个方向上不遗余力的投入与宣传。搜狗早在 2013 年就推出了搜狗语音助手，借助于背后搜索引擎的能力，很快就从技术上做到了中文业内的领先，并在市场上赢得了不错的口碑。只是后来发现这类产品的用户沉淀率很低，因为实际上它在手机端并不能够真正很好的解决用户的实际需求，更像一个玩具，因此后来在研发以及推广上的资源就没有再持续。但这些年来搜狗一直在内部各个产品线上都在坚持往「更智能化」的方向去走。

比如我们目前就一直在思考和探索未来的输入法是什么样子的。传统的输入法只是一个工具，核心是帮助用户更有效率的进行文字输入。但进一步思考用户输入背后的原始意图时你会发现用户的输入需求主要是表达和信息传递。那我们能不能在这两个方向上利用机器智能多走一步，帮用户多做一些事情，给用户带来更多的价值？例如在我在回复你发来的 message 时，输入法能否根据你发来的问题自动生成回复。再比如我们微信聊天中，输入法通过语义分析发现我正在给你推荐晚上聚餐的饭馆，那就可以直接把餐馆对应的大众点评 URL 提供给我，我可以一键分享给你，那我就不再需要先切到点评 APP 搜索该餐厅然后分享回微信的这样繁琐的过程。这些功能其实都是人工智能在产品中的体现，已经部分的灰度上线，目前还在打磨体验。刚刚过去的谷歌大会也发布了 Gboard 谷歌键盘，在这方面的思路就和我们是基本一致的，也是让输入法更好的服务用户。

谈到语音，我们在 2012 年初就开始研发自己的语音识别技术，并且在 2012 年底就已经全量上线到了我们的输入法和地图产品中。当时搜狗语音助手曾短暂的使用过第三方公司提供的语音技术，在 2013 年上半年我们完成了深度学习技术的研发和上线，并实际的接入语音助手进行灰度测试，从用户反馈数据来看我们的准确率已经领先于第三方公司，于是 6 月份以后我们的全线产品就全都使用我们自己的语音识别技术了。

到现在，我们的语音技术还会每年去做对比评测，以了解我们在业界的真实位置。不是自己评，而是会找一些高校，让他们找人去评，多台手机同时对比多家语音识别技术，评测的结果我们的表现是业内领先的。

机器之心：搜狗作为一家互联网产品公司，能把语音识别技术做到现在这个水平的主要原因是什么？

王砚峰：最大的差异点应该就是产品以及产品上产生的数据了。你是互联网上最大的输入法公司，那语音识别技术就是你必须要做好的，我们的产品和语音识别技术是天然 match 的。而语音识别技术本身就是一种输入型技术，所以语音识别发生的最高频场景就是输入法。基于我们输入法在互联网数亿用户的体量上产生出来的用户数据，甚至比其他公司整个开放平台上产生的数据量还要大。我们现在每天单是输入法上的语音识别请求量已经超过了 1.3 亿。基于这样大的数据量，我们就能在深度学习技术和用户海量数据的闭环中快速迭代起来，不断提升识别的效果。从 2013 年到现在，我们在语音识别的错误率方面降低了至少 70%。一方面原因是我们在深度学习技术上的不断提升，另一方面就是高质量用户数据的积累。

机器之心：你们如何看待语音识别技术的应用，有哪些重要的应用方向？

王砚峰：如果普遍来看一项技术的价值，你越解决用户的刚需，并且具有这个刚需的用户群体越大，那么这项技术的价值就越大。反过来，更多的刚需以及潜在价值也能给技术提供更大的发展动力。为什么语音识别在 PC 互联网时代没有如此飞速的进步？除去技术发展的规律，我想更重要的因素可能反而是用户的需求没有那么强烈，少数特殊群体除外。

进入了移动互联网时代，语音技术的价值就更大，因为手机的输入效率要低于 PC，并且也会受到一些客观环境的影响让用户很难用手打字。此时语音日常满足的多是信息输入方面的需求，其产品形态就是语音输入和语音搜索，体现在用户行为中就是聊天类 APP 和搜索类 APP 构成了语音请求的绝大部分，语音更多也是效率性和便利性方面的提升。在这个时候我们已经可以说语音识别技术对于普通用户来讲是具有一定的价值了，但这个价值不够大，从数据上看，语音输入比例相比文字，仍然少得可怜。

进一步的，到了物联网和车联网时代，用户的消费场景发生了变化，信息获取和阅读的方式也会发生变化，屏幕和键盘会进一步被弱化。此时单纯的输入已经不够，需要通过更自然的交互方式来解决，这是助手形态真正有意义的场景。用交互来解决什么呢，仍然是用户的刚需。车内的刚需是出行问题，而客厅内的刚需是娱乐问题。户外场景下用户也是有刚需的，但是产品本身比如手表却不够刚需，反倒更多的还是通过手机来满足，又回到了手机的输入需求上。至于很多公司目前正在做的通用「机器人」，我们目前看不出在用户端的价值，能解决用户什么实际的需求，因此搜狗本身也没有积极地去跟进这个市场。

从当前的产品发展结合技术对于产品体验的增值方面来看，车内的语音目前是我们觉得最具有价值的，因为用户在开车的时候双手和双眼都被占用的，而且这个市场已经开始进入爆发期，充满产品和技术的活力，但仍不够成熟，还有很大发展空间。所以需要把语音下沉到这个场景中，做各种专门的优化，比如从识别方面需要做 POI 识别优化、去噪、回声消除、定向 mic 阵列，语义理解方面需要结合更多的知识和结构化数据来优化语义理解的效果和交互体验，让语音在车内达到用户实用这样一个水平。客厅内的语音在未来一定会比当前有更大的价值，但是受限于当前产品本身的发展，以及竞争对手颇多（如手机和 PAD 等），距离大规模的爆发还需要时间。

机器之心：和其他专门做人工智能的公司相比，搜狗在人工智能的研究和应用方面有哪些优势？

王砚峰：还是以语音领域为例吧。结合搜狗自身的能力，目前我们会有三个比较大的差异点。

第一点，我们是一个互联网产品公司，会更加在意用户体验和技术的用户价值。什么是好的语音交互的用户体验？就是交互过程的准确高效，让用户很容易的表达、选择以及反馈。首先语音识别的准确率目前只有 95% 以上，这是一个现实的技术问题，那如何通过交互设计进行风险规避，去弥补那 5% 的不足，这是要解决的第一大问题。比如我说「我想去航天一院」，而语音识别错误的给出了「我想去航天医院」，于是我会进一步告诉它是「一二三四」的「一」，这时机器就会根据我的反馈调整导航目的地。其次，在导航领域，一次 POI 查询往往会有多个 POI 结果，比如用户说「我要去首都机场」，首都机场有多个航站楼，每个航站楼也会有停车楼和出发到达口。之前的语音交互方法都是挨个把搜索结果读一遍然后问用户选择哪一个，这个体验非常糟糕，十分的反人性。但如果可以充分利用好地图里的结构化数据，反过来问用户去哪个航站楼，去接人还是送人等问题，就可以让交互过程对于用户更自然更轻松。当然，这个让语义理解从单轮对话变成了对轮，技术的难度也会大大提高。

第二点，我们有丰富的提供内容和服务的产品线，除了大搜索以外，还有地图搜索、搜狗问问、搜搜百科、号码通、网址导航以及一系列垂搜产品。所以当你需要某类服务时，基本都可以通过内部部门之间的配合把高质量的服务迅速接入进来。而且这种内部闭环的能力对于交互体验也具有更深层次的意义，就是你能够针对这些服务去做更好的交互优化，比如上面提到的利用地图结构化数据去做交互优化，就是建立在语音团队和地图团队深度合作的基础上完成的。其实不止地图领域，即使是一般的搜索问答，也需要更简洁的返回方式才适合语音去表达出来，这就需要对传统的搜索结果进一步的分析和抽象，才能让答案做到简洁明确。

第三个优势，我们之前从输入法、浏览器、网址导航、搜索等产品中积累了一个庞大的用户体系，有丰富的用户行为和用户数据。带着这种能力，我们有机会需探求用户在语音请求背后的目的，并且用更智能的方式为用户提供服务。比如经常被举得一个例子，对着音箱说「我要听刘德华在 1995 年演唱会唱的那版忘情水」，但实际上对于用户来讲点歌是很难的，我个人点歌的时候脑子就会一片空白。我自己平时听歌要么就是有一个自己整理好的本地播放列表，要么就是用豆瓣 FM。所以在面对音箱的时候更加不「反人类」的做法应该是通过你的历史数据进行推荐，用户只要说一句「放一些我喜欢的歌曲」就可以搞定一些。再比如我们在上海 CES 展示出来的导航新功能，用户说「我想去首都机场」，在提供了航班号之后，会根据航班是否晚点以及当前路况，来给用户建议更合理的出发时间。因为用户去机场本身不是目的，出发或者接人才是目的，找到用户背后的真实需求，并且结合实时数据来给用户提供决策建议，才是真正的智能。

这三点差异或者优势，从基于产品设计理念和经验的交互体验优化，到基于产品内容和数据的服务体验的优化，再到基于用户数据和行为的智能推荐优化，都深深植根于我们的用户产品。

机器之心：当前人工智能技术在工业界很热，很多公司都在往这个概念上去靠，去赶技术热点。但涉及人工智能的落地，对应用和产品的理解也非常关键，你们觉得应该用一种什么样的产品理念去做人工智能？

王砚峰：不是为了技术本身去做技术，这个是需要坚持的重要理念。总结来讲就是三点：产品方向上直奔用户刚需，产品体验上简单可依赖，满足用户需求的方式上更聪明更智能。

上次在一个学术交流会上让我们这些工业界的人给 AI 领域的小白创业者提一些建议，大家的共识都是「找刚需」。大的刚需不容易找或者搞不定，那你就要更多的做一些场景的下沉。拿机器翻译来举例子，实时翻译这件事本身是非常难的，但如果把它限定在垂直的旅游领域，那问题就会简单很多，也能很好地满足出境自由行群体的刚需。如果我们把能力沉下来放到场景中，其实还是可以发现有好多的价值的点可以去做。

再比如说大家都在做车内的语音唤醒，很多人在拼命提高语音唤醒的准确率，但是不管怎么努力，都很难克服误识率和召回率之间的矛盾。但实际对于用户而言更好的方案其实是加一个方控（唤醒的实体键），一个按键就从工程上解决了可能在研究上许多年都无法解决的一个难题，并且对用户来讲叫做「简单可依赖」。如果我们自己来做产品，一定会更加推崇这样的方案。

「智能化」是用在需要使用的地方，而不是处处用。复杂请求的交互，多样需求的满足，用户个性化和上下文场景的优化，这些才是人工智能发挥能力的地方。我刚才举得很多例子，其实都是这个理念的体现。

当然我并不是说方控一定比唤醒好，站在技术发展的角度，一定是越智能越好，唤醒本身也只是一种阶段性解决方案。但是仅就我们如何利用当前的技术水平做出一款有用户价值的产品这一点而言，稳定的体验一定是一个最基本的准则。

机器之心：搜狗现有的产品和技术的积累是否对接下来做人工智能应用起到非常强大的支撑作用？在人工智能方面搜狗后面有什么规划和战略吗？

王砚峰：人工智能目前主要解决的问题是信息的交互和获取，这跟搜狗在产品、技术以及数据上的累积是完全一致的。

从交互方面，搜狗输入法每年目前用户有 20 万亿次的文字输入，输入法用户渗透率达到 95% 以上。在核心品质方面，通过不断的优化自然语言处理技术，搜狗输入法一直以来就是让用户的输入最准确的输入法。现在我们又开始在输入法上进一步去用更好的语义理解技术去做产品创新，让输入法变得更懂用户，去满足用户的需求。我们的语音识别技术利用了输入法产生出来的大数据，也能迅速迭代起来，并且通过很早的对深度学习技术的布局和跟进，让我们的语音识别效果也能在业界持续在领先的地位。

而在信息获取方面，我们 04 年就推出了搜狗搜索引擎，并且在中文搜索方面取得了不逊于国内巨头的搜索效果，目前整个搜索平台月活 UV 已经超过 5.6 亿。在 13 年我们率先推出了知立方和语音助手，又在之后分别推出了微信搜索、知乎搜索、名医搜索等一些列针对垂直优质内容的差异化搜索引擎。目前我们的搜索团队也在致力于从推理方面突破现有技术的水平，让搜索真正能够做到用户问个问题，直接得到答案，而不是返回多个文本匹配的结果。

人工智能当前的发展动力主要是大数据加深度学习。而大数据中所谓「大」其实是「全」，通过多样化的数据协同来产生价值，只「大」不「全」的话往往只能对产生数据的产品本身有帮助作用，但是外延价值就不够了。Google 既是系统，同时还是 message、keyboardmail、search 等等，因此 Google 就是最具价值的大数据公司。目前搜狗在国内拥有垄断级的 keyboard 和第二大的 search，同时也不断在通过流量合作的方式把更多外部数据纳入到我们的大数据体系下，因此我们在用户数据的全面程度上是接近谷歌的，这也是我们的一个很重要的优势。

后面我们的人工智能技术还是要坚持两条路同时去走，一是让更多有价值的技术通过产品去落地到用户端，一是继续追求技术的前沿，像 AlphaGo 这样，用人工智能技术去挑战现有技术不能解决的难题。尤其是在追求更前沿的技术方面，我们后面也会有更大的投入。不久前我们也和清华大学联合成立「清华大学天工智能计算研究院」，希望通过这种方式深入探索人工智能领域的前沿技术。

搜狗的人工智能研发与应用：让技术在产品中创造更多用户价值

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件