搜狗的人工智能研发与应用:让技术在产品中创造更多用户价值

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 今年 4 月份,搜狗宣布与清华大学联合成立「清华大学天工智能计算研究院」,把人工智能作为重要战略发展方向,但一直没有透露太多关于具体人工智能研发和应用层面的信息。为此,机器之心对搜狗语音交互技术中心负责人王砚峰进行了专访,王砚峰介绍了搜狗的人工智能研究历史,以及在人工智能方面的产品创新思路。

微信图片_20211126212633.jpg

王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人


机器之心:搜狗是何时在人工智能方面开展研究的?


王砚峰:现在提到人工智能可能大家首先想到的就是苹果的语音助手 Siri,之后国内外各大公司也都在这个方向上不遗余力的投入与宣传。搜狗早在 2013 年就推出了搜狗语音助手,借助于背后搜索引擎的能力,很快就从技术上做到了中文业内的领先,并在市场上赢得了不错的口碑。只是后来发现这类产品的用户沉淀率很低,因为实际上它在手机端并不能够真正很好的解决用户的实际需求,更像一个玩具,因此后来在研发以及推广上的资源就没有再持续。但这些年来搜狗一直在内部各个产品线上都在坚持往「更智能化」的方向去走。


比如我们目前就一直在思考和探索未来的输入法是什么样子的。传统的输入法只是一个工具,核心是帮助用户更有效率的进行文字输入。但进一步思考用户输入背后的原始意图时你会发现用户的输入需求主要是表达和信息传递。那我们能不能在这两个方向上利用机器智能多走一步,帮用户多做一些事情,给用户带来更多的价值?例如在我在回复你发来的 message 时,输入法能否根据你发来的问题自动生成回复。再比如我们微信聊天中,输入法通过语义分析发现我正在给你推荐晚上聚餐的饭馆,那就可以直接把餐馆对应的大众点评 URL 提供给我,我可以一键分享给你,那我就不再需要先切到点评 APP 搜索该餐厅然后分享回微信的这样繁琐的过程。这些功能其实都是人工智能在产品中的体现,已经部分的灰度上线,目前还在打磨体验。刚刚过去的谷歌大会也发布了 Gboard 谷歌键盘,在这方面的思路就和我们是基本一致的,也是让输入法更好的服务用户。


谈到语音,我们在 2012 年初就开始研发自己的语音识别技术,并且在 2012 年底就已经全量上线到了我们的输入法和地图产品中。当时搜狗语音助手曾短暂的使用过第三方公司提供的语音技术,在 2013 年上半年我们完成了深度学习技术的研发和上线,并实际的接入语音助手进行灰度测试,从用户反馈数据来看我们的准确率已经领先于第三方公司,于是 6 月份以后我们的全线产品就全都使用我们自己的语音识别技术了。


到现在,我们的语音技术还会每年去做对比评测,以了解我们在业界的真实位置。不是自己评,而是会找一些高校,让他们找人去评,多台手机同时对比多家语音识别技术,评测的结果我们的表现是业内领先的。


机器之心:搜狗作为一家互联网产品公司,能把语音识别技术做到现在这个水平的主要原因是什么?


王砚峰:最大的差异点应该就是产品以及产品上产生的数据了。你是互联网上最大的输入法公司,那语音识别技术就是你必须要做好的,我们的产品和语音识别技术是天然 match 的。而语音识别技术本身就是一种输入型技术,所以语音识别发生的最高频场景就是输入法。基于我们输入法在互联网数亿用户的体量上产生出来的用户数据,甚至比其他公司整个开放平台上产生的数据量还要大。我们现在每天单是输入法上的语音识别请求量已经超过了 1.3 亿。基于这样大的数据量,我们就能在深度学习技术和用户海量数据的闭环中快速迭代起来,不断提升识别的效果。从  2013 年到现在,我们在语音识别的错误率方面降低了至少 70%。一方面原因是我们在深度学习技术上的不断提升,另一方面就是高质量用户数据的积累。


机器之心:你们如何看待语音识别技术的应用,有哪些重要的应用方向?


王砚峰:如果普遍来看一项技术的价值,你越解决用户的刚需,并且具有这个刚需的用户群体越大,那么这项技术的价值就越大。反过来,更多的刚需以及潜在价值也能给技术提供更大的发展动力。为什么语音识别在 PC 互联网时代没有如此飞速的进步?除去技术发展的规律,我想更重要的因素可能反而是用户的需求没有那么强烈,少数特殊群体除外。


进入了移动互联网时代,语音技术的价值就更大,因为手机的输入效率要低于 PC,并且也会受到一些客观环境的影响让用户很难用手打字。此时语音日常满足的多是信息输入方面的需求,其产品形态就是语音输入和语音搜索,体现在用户行为中就是聊天类 APP 和搜索类 APP 构成了语音请求的绝大部分,语音更多也是效率性和便利性方面的提升。在这个时候我们已经可以说语音识别技术对于普通用户来讲是具有一定的价值了,但这个价值不够大,从数据上看,语音输入比例相比文字,仍然少得可怜。


进一步的,到了物联网和车联网时代,用户的消费场景发生了变化,信息获取和阅读的方式也会发生变化,屏幕和键盘会进一步被弱化。此时单纯的输入已经不够,需要通过更自然的交互方式来解决,这是助手形态真正有意义的场景。用交互来解决什么呢,仍然是用户的刚需。车内的刚需是出行问题,而客厅内的刚需是娱乐问题。户外场景下用户也是有刚需的,但是产品本身比如手表却不够刚需,反倒更多的还是通过手机来满足,又回到了手机的输入需求上。至于很多公司目前正在做的通用「机器人」,我们目前看不出在用户端的价值,能解决用户什么实际的需求,因此搜狗本身也没有积极地去跟进这个市场。


从当前的产品发展结合技术对于产品体验的增值方面来看,车内的语音目前是我们觉得最具有价值的,因为用户在开车的时候双手和双眼都被占用的,而且这个市场已经开始进入爆发期,充满产品和技术的活力,但仍不够成熟,还有很大发展空间。所以需要把语音下沉到这个场景中,做各种专门的优化,比如从识别方面需要做 POI 识别优化、去噪、回声消除、定向 mic 阵列,语义理解方面需要结合更多的知识和结构化数据来优化语义理解的效果和交互体验,让语音在车内达到用户实用这样一个水平。客厅内的语音在未来一定会比当前有更大的价值,但是受限于当前产品本身的发展,以及竞争对手颇多(如手机和 PAD 等),距离大规模的爆发还需要时间。


机器之心:和其他专门做人工智能的公司相比,搜狗在人工智能的研究和应用方面有哪些优势?


王砚峰:还是以语音领域为例吧。结合搜狗自身的能力,目前我们会有三个比较大的差异点。


第一点,我们是一个互联网产品公司,会更加在意用户体验和技术的用户价值。什么是好的语音交互的用户体验?就是交互过程的准确高效,让用户很容易的表达、选择以及反馈。首先语音识别的准确率目前只有 95% 以上,这是一个现实的技术问题,那如何通过交互设计进行风险规避,去弥补那 5% 的不足,这是要解决的第一大问题。比如我说「我想去航天一院」,而语音识别错误的给出了「我想去航天医院」,于是我会进一步告诉它是「一二三四」的「一」,这时机器就会根据我的反馈调整导航目的地。其次,在导航领域,一次 POI 查询往往会有多个 POI 结果,比如用户说「我要去首都机场」,首都机场有多个航站楼,每个航站楼也会有停车楼和出发到达口。之前的语音交互方法都是挨个把搜索结果读一遍然后问用户选择哪一个,这个体验非常糟糕,十分的反人性。但如果可以充分利用好地图里的结构化数据,反过来问用户去哪个航站楼,去接人还是送人等问题,就可以让交互过程对于用户更自然更轻松。当然,这个让语义理解从单轮对话变成了对轮,技术的难度也会大大提高。


第二点,我们有丰富的提供内容和服务的产品线,除了大搜索以外,还有地图搜索、搜狗问问、搜搜百科、号码通、网址导航以及一系列垂搜产品。所以当你需要某类服务时,基本都可以通过内部部门之间的配合把高质量的服务迅速接入进来。而且这种内部闭环的能力对于交互体验也具有更深层次的意义,就是你能够针对这些服务去做更好的交互优化,比如上面提到的利用地图结构化数据去做交互优化,就是建立在语音团队和地图团队深度合作的基础上完成的。其实不止地图领域,即使是一般的搜索问答,也需要更简洁的返回方式才适合语音去表达出来,这就需要对传统的搜索结果进一步的分析和抽象,才能让答案做到简洁明确。


第三个优势,我们之前从输入法、浏览器、网址导航、搜索等产品中积累了一个庞大的用户体系,有丰富的用户行为和用户数据。带着这种能力,我们有机会需探求用户在语音请求背后的目的,并且用更智能的方式为用户提供服务。比如经常被举得一个例子,对着音箱说「我要听刘德华在 1995 年演唱会唱的那版忘情水」,但实际上对于用户来讲点歌是很难的,我个人点歌的时候脑子就会一片空白。我自己平时听歌要么就是有一个自己整理好的本地播放列表,要么就是用豆瓣 FM。所以在面对音箱的时候更加不「反人类」的做法应该是通过你的历史数据进行推荐,用户只要说一句「放一些我喜欢的歌曲」就可以搞定一些。再比如我们在上海 CES 展示出来的导航新功能,用户说「我想去首都机场」,在提供了航班号之后,会根据航班是否晚点以及当前路况,来给用户建议更合理的出发时间。因为用户去机场本身不是目的,出发或者接人才是目的,找到用户背后的真实需求,并且结合实时数据来给用户提供决策建议,才是真正的智能。


这三点差异或者优势,从基于产品设计理念和经验的交互体验优化,到基于产品内容和数据的服务体验的优化,再到基于用户数据和行为的智能推荐优化,都深深植根于我们的用户产品。


机器之心:当前人工智能技术在工业界很热,很多公司都在往这个概念上去靠,去赶技术热点。但涉及人工智能的落地,对应用和产品的理解也非常关键,你们觉得应该用一种什么样的产品理念去做人工智能?


王砚峰:不是为了技术本身去做技术,这个是需要坚持的重要理念。总结来讲就是三点:产品方向上直奔用户刚需,产品体验上简单可依赖,满足用户需求的方式上更聪明更智能。


上次在一个学术交流会上让我们这些工业界的人给 AI 领域的小白创业者提一些建议,大家的共识都是「找刚需」。大的刚需不容易找或者搞不定,那你就要更多的做一些场景的下沉。拿机器翻译来举例子,实时翻译这件事本身是非常难的,但如果把它限定在垂直的旅游领域,那问题就会简单很多,也能很好地满足出境自由行群体的刚需。如果我们把能力沉下来放到场景中,其实还是可以发现有好多的价值的点可以去做。


再比如说大家都在做车内的语音唤醒,很多人在拼命提高语音唤醒的准确率,但是不管怎么努力,都很难克服误识率和召回率之间的矛盾。但实际对于用户而言更好的方案其实是加一个方控(唤醒的实体键),一个按键就从工程上解决了可能在研究上许多年都无法解决的一个难题,并且对用户来讲叫做「简单可依赖」。如果我们自己来做产品,一定会更加推崇这样的方案。


「智能化」是用在需要使用的地方,而不是处处用。复杂请求的交互,多样需求的满足,用户个性化和上下文场景的优化,这些才是人工智能发挥能力的地方。我刚才举得很多例子,其实都是这个理念的体现。


当然我并不是说方控一定比唤醒好,站在技术发展的角度,一定是越智能越好,唤醒本身也只是一种阶段性解决方案。但是仅就我们如何利用当前的技术水平做出一款有用户价值的产品这一点而言,稳定的体验一定是一个最基本的准则。


机器之心:搜狗现有的产品和技术的积累是否对接下来做人工智能应用起到非常强大的支撑作用?在人工智能方面搜狗后面有什么规划和战略吗?


王砚峰:人工智能目前主要解决的问题是信息的交互和获取,这跟搜狗在产品、技术以及数据上的累积是完全一致的。


从交互方面,搜狗输入法每年目前用户有 20 万亿次的文字输入,输入法用户渗透率达到 95% 以上。在核心品质方面,通过不断的优化自然语言处理技术,搜狗输入法一直以来就是让用户的输入最准确的输入法。现在我们又开始在输入法上进一步去用更好的语义理解技术去做产品创新,让输入法变得更懂用户,去满足用户的需求。我们的语音识别技术利用了输入法产生出来的大数据,也能迅速迭代起来,并且通过很早的对深度学习技术的布局和跟进,让我们的语音识别效果也能在业界持续在领先的地位。


而在信息获取方面,我们 04 年就推出了搜狗搜索引擎,并且在中文搜索方面取得了不逊于国内巨头的搜索效果,目前整个搜索平台月活 UV 已经超过 5.6 亿。在 13 年我们率先推出了知立方和语音助手,又在之后分别推出了微信搜索、知乎搜索、名医搜索等一些列针对垂直优质内容的差异化搜索引擎。目前我们的搜索团队也在致力于从推理方面突破现有技术的水平,让搜索真正能够做到用户问个问题,直接得到答案,而不是返回多个文本匹配的结果。


人工智能当前的发展动力主要是大数据加深度学习。而大数据中所谓「大」其实是「全」,通过多样化的数据协同来产生价值,只「大」不「全」的话往往只能对产生数据的产品本身有帮助作用,但是外延价值就不够了。Google 既是系统,同时还是 message、keyboardmail、search 等等,因此 Google 就是最具价值的大数据公司。目前搜狗在国内拥有垄断级的 keyboard 和第二大的 search,同时也不断在通过流量合作的方式把更多外部数据纳入到我们的大数据体系下,因此我们在用户数据的全面程度上是接近谷歌的,这也是我们的一个很重要的优势。


后面我们的人工智能技术还是要坚持两条路同时去走,一是让更多有价值的技术通过产品去落地到用户端,一是继续追求技术的前沿,像 AlphaGo 这样 ,用人工智能技术去挑战现有技术不能解决的难题。尤其是在追求更前沿的技术方面,我们后面也会有更大的投入。不久前我们也和清华大学联合成立「清华大学天工智能计算研究院」,希望通过这种方式深入探索人工智能领域的前沿技术。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
86 21
|
5天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
64 28
|
19天前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
53 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek逆天,核心是 知识蒸馏(Knowledge Distillation, KD),一项 AI 领域的关键技术
尼恩架构团队推出《LLM大模型学习圣经》系列,涵盖从Python开发环境搭建到精通Transformer、LangChain、RAG架构等核心技术,帮助读者掌握大模型应用开发。该系列由资深架构师尼恩指导,曾助力多位学员获得一线互联网企业的高薪offer,如网易的年薪80W大模型架构师职位。配套视频将于2025年5月前发布,助你成为多栖超级架构师。此外,尼恩还提供了NIO、Docker、K8S等多个技术领域的学习圣经PDF,欢迎领取完整版资源。
|
16天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
48 16
|
25天前
|
人工智能 缓存 Ubuntu
AI+树莓派=阿里P8技术专家。模拟面试、学技术真的太香了 | 手把手教学
本课程由阿里P8技术专家分享,介绍如何使用树莓派和阿里云服务构建AI面试助手。通过模拟面试场景,讲解了Java中`==`与`equals`的区别,并演示了从硬件搭建、语音识别、AI Agent配置到代码实现的完整流程。项目利用树莓派作为核心,结合阿里云的实时语音识别、AI Agent和文字转语音服务,实现了一个能够回答面试问题的智能玩偶。课程展示了AI应用的简易构建过程,适合初学者学习和实践。
88 22
|
20天前
|
机器学习/深度学习 数据采集 人工智能
人工智能在变更管理中的应用:变革的智能化之路
人工智能在变更管理中的应用:变革的智能化之路
42 13
|
22天前
|
人工智能 Java 程序员
通义灵码AI编码助手和AI程序员背后的技术
通义灵码AI编码助手和AI程序员背后的技术,由通义实验室科学家黎槟华分享。内容涵盖三部分:1. 编码助手技术,包括构建优秀AI编码助手及代码生成补全;2. 相关的AI程序员技术,探讨AI程序员的优势、发展情况、评估方法及核心难点;3. 代码智能方向的展望,分析AI在软件开发中的角色转变,从辅助编程到成为开发主力,未来将由AI执行细节任务,开发者负责决策和审核,大幅提升开发效率。
123 12
|
24天前
|
人工智能 搜索推荐
AI视频技术的发展是否会影响原创内容的价值
AI视频技术的发展显著降低了视频制作的门槛与成本,自动完成剪辑、特效添加等繁琐工作,大大缩短创作时间。它提供个性化创意建议,帮助创作者突破传统思维,拓展创意边界。此外,AI技术使更多非专业人士也能参与视频创作,注入新活力与多样性,丰富了原创内容。总体而言,AI视频技术不仅提升了创作效率,还促进了视频内容的创新与多样化。
|
17天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
54 5

热门文章

最新文章