技术和产品二重奏:搜狗如何演绎「自然交互和知识计算」

简介: 苹果 Siri 的推出让大众开始对语音交互有了初步概念,而这几年深度学习的发展更是使语音识别准确率获得了质的提升。

苹果 Siri 的推出让大众开始对语音交互有了初步概念,而这几年深度学习的发展更是使语音识别准确率获得了质的提升。


1976 年,Reddy 在一篇关于当时语音识别最高水平的综述文章中大胆预测:未来 10 年内有望实现成本为 20,000 美元的联网语音系统。虽然超出了预计时间,但研究人员最终不仅达到了目标,而且建立系统的成本低得多并继续大幅下降。


今天,在很多智能手机里,业内提供了明显超出 Reddy 预测的免费语音识别服务。 从某种程度上来看,目前的语音识别技术已然成熟,我们已经习惯在家居、车载等某些场景下去使用语音,众多拥有语音识别技术的公司也开始把语音和人机自然对话当做下一代交互方式去豪赌未来。


但就像语音识别在过去几十年的发展路径一样,技术和基础研究的进步是需要循序渐进的。 一方面,我们需要通过更多创新的方法来进行语音识别的基础研究,以尽可能提高准确率,如同IBM 曾将英语会话词错误率降低至 6.9% 。另一方面,前沿技术研究到实际应用需要一个很长的过程,我们也不可能等到语音识别的准确率达到 100% 之后再将其应用,而是在当前成熟技术的最高水平下,通过产品设计去让技术落地,解决用户需求问题。通过应用场景的设计和产品的创新去弥补技术的不足,在依靠技术的同时,应该更多的以产品为导向。


纵观整个互联网行业,可以说搜狗作为一家技术型公司,在人工智能领域一直依靠实践来获取更多的经验,从而提升产品使用体验。


人工智能=自然交互+知识计算

 

关于人工智能,搜狗将其总结为两点,即「自然交互和知识计算」。在交互方面,搜狗语音交互技术中心负责人王砚峰认为语音和图像已经具有一定的成熟度,除了向更加成熟的方向发展外,未来也会将更多的传感技术以及传感器加入到交互中,进一步推动交互技术的发展。同时,语义理解和对话也是交互方面的核心能力,因为不能只有「耳朵眼睛」没有「大脑」;在信息获取方面,王砚峰认为知识计算和逻辑推理会让当前的搜索形态发生变化,即从单纯文字的检索,到理解搜索需求并且从网页中抽取知识反馈用户。从而提升搜索体验,同时帮助用户更自然的获取信息。


B3A65A08-4A0B-40F1-9B98-7967BE7FB1C4.jpeg


「语音识别技术经过这几年的快速发展,准确率有了非常大的提升。但即使如此,当前语音识别准确率仍然做不到 100% ,而语音识别一旦出错,用户修改成本就会异常的高,从而反过来提高了用户使用语音的门槛,」王砚峰表示,「于是我们就去想,能不能结合用户使用语音的场景,通过产品创新进一步提升语音识别的效果,弥补技术发展的不足。」所以,搜狗推出了语音识别纠错功能,当语音识别发生错误时,可以让用户通过语音交互去修改错误,这样就大大提升了语音交互的体验和使用效率。


支撑这个功能有两方面技术,一是需要语音识别本身的准确率,二是需要强大的语义理解能力,「就是能够听懂用户想改什么以及怎么改。为了降低用户使用这个功能的学习成本,需要做的就是能够支持用户各种修改的表达,用户可以说『把第一个字删掉』,也可以说『将第一个字删掉』,『删除第一个字』等各种其他表达方法。我们追求的就是让用户在修改的时候,平时对人是怎么描述修改的,对机器就怎么描述。这才是用户最自然的交互方式。」王砚峰解释到。


用「最自然的交互方式」进行纠错还体现在用户可以去描述某个文字,比如机器能够听懂「立早章」和「女字旁的她」这样复杂的语言命令,而实现这个功能则是和搜狗在输入法的积累密不可分。「这方面搜狗输入法还是带给了我们先天的优势,」王砚峰说,「我们输入法具有基础的拆字库,知道一个字是如何拆开的,同时我们也有大量的用户表达数据,通过数据挖掘,是可以知道用户日常表达中如何描述一个字的。这两个知识串起来,就能够让我们知道,用户会用『立早章』来描述『章』这个字,于是就把这个知识加入到我们的知识库中。」


什么才是未来的内容获取方式?


拥有技术基础,再加上对应用场景理解的产品理念,那语音纠错这个功能显然就变成了解决刚需的通用工具,因为整个行业在语音识别准确率未能达到100%的情况下,只要处于语音输入的场景下,势必都需要这样的技术,不仅能够解放用户的双手,同时在一定程度上提高了用户的使用效率。「车内导航的时候,利用它去修改语音识别错误的导航目的地,真正的解放用户双手;在客厅中,比如电视遥控器和智能音箱这种没有屏幕的设备,甚至只能通过语音修改来进行错误的修正了。所以但凡语音有价值的场景,语音修改就同等的具有价值,」王砚峰说。


王砚峰认为,语音纠错这个功能只是人工智能技术和产品理念结合的一个案例,为了帮助用户更方便的进行信息的表达和获取,属于这条路径上的技术领域,都是搜狗需要重点发力的方向。 因此,除了语音和语义理解,搜狗在图像等方面也在进行布局。一方面致力于对未来主流技术的布局和追求,另一方面也使得现有核心产品向未来更智能的方向演进。



©本文由机器之心原创,转载请联系本公众号获得授权

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
106 2
|
6月前
|
自然语言处理 语音技术
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
180 0
游戏行业术语解决及数据计算方式
游戏行业术语解决及数据计算方式
122 0
|
数据采集 机器学习/深度学习 人工智能
通用VS垂直,讯飞星火与网易子曰不同的“大模型解法”
随着大模型商业化应用的提速,全世界各国都开始孵化和孕育各自的行业大模型。
132 0
|
存储 边缘计算 编解码
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
280 0
|
机器学习/深度学习 搜索推荐 算法
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
美团基础研发机器学习平台训练引擎团队,联合到家搜推技术部算法效能团队、NVIDIA DevTech团队,成立了联合项目组。目前在美团外卖推荐场景中进行了部署,多代模型全面对齐算法的离线效果,对比之前,优化后的CPU任务,性价比提升了2~4倍。
550 0
【推荐系统】美团外卖推荐场景的深度位置交互网络DPIN的突破与畅想
|
人工智能 边缘计算 搜索推荐
就餐这件小事,如何被AI计算深度改变?
天天嚷着营养均衡、保持身材,临了却不知道该吃什么、怎么吃;
就餐这件小事,如何被AI计算深度改变?
|
机器学习/深度学习 存储 人工智能
双11专栏 | 基于神经渲染的商品三维建模技术
2021年双十一,手机淘宝实现了自动化建模和自动化设计技术,可以规模化的针对消费者的个性化需求进行满足,实现商品放我家的效果。看商品不再是看图片、看视频,而是可以把指定商品放到自己家的真实户型中进行展示,AI设计根据指定商品和真实户型进行全屋搭配设计,给消费者呈现整体的设计效果,每个人拥有私人专属设计师的梦想得以实现。
双11专栏 | 基于神经渲染的商品三维建模技术