解密:依图如何一年实现语音识别指标超巨头玩家

简介: 年底,尽管资本寒冬的声音不绝于耳,但勇者往往无畏。在第四波 AI 浪潮下快速成长起的「小巨头」并没有停下开疆拓土的脚步。人脸、语音等多模态生物识别技术的融合成为人工智能应用的发展趋势之一。

12 月 11 日,擅长计算机视觉技术解决方案的依图科技在北京公开展示了语音识别领域的最新技术成果,并表示将在近期开放依图语音识别 API 接口以及部分测试数据集。同时,依图科技还宣布,将基于其语音识别技术与微软 Azure、华为推出联合方案平台。


01 最优测试结果如何保证客观性?


活动现场,依图首先展示了其语音识别小程序「听写大会」在歌词识别、飞机机舱混响环境下的播报识别结果,以及依图语音识别 API 在公开数据集、依图自有数据集、非公开数据集三类数据集上的平均错字率(CER)表现。


微信图片_20211130163327.jpg


测试结果均以横向对比的形式体现,横向对比的其他主流方案包括讯飞听见、讯飞开放平台、云知声开放平台、阿里一句话、腾讯 AI 平台、百度语音-远场、百度语音-输入法、百度语音-搜索。


数据集是测试结果公正性的重要依据,为体现数据集的科学性和多样性。依图测试过程中涉及到的公开测试数据集包括:


  1. 全球最大中文普通话数据库 AISHELL1、AISHELL2(采用 iOS 系统,Android、Mic 性能类似,省略)、中文语音语料 THCHS30、PrimeWord、ST-CMDS;
  2. 依图自有数据集包括安静对话、混响数据集;
  3. 非公开数据集,即向第三方购买的数据集,包括语音助手场景、电话闲聊、电话客服、远场演讲、口音等场景的数据。


微信图片_20211130163324.jpg


依图科学家吴双博士表示,该批测试完成于 2018 年 11 月底,数据覆盖了近 60 万字、50 小时的语料,近场/远场跨度在 20cm-10m,涵盖智能音箱、手机等多种设备,科技、医疗等超过 20 类话题领域。


微信图片_20211130163321.jpg


在上述提到的所有测试数据集和测试场景中,依图语音的平均字错率表现均优于科大讯飞、百度等横向对比的主流语音方案商的开放平台方案。字错率是中文语音识别领域的关键性评估指标,一般认为字错率在低于 3% 时不会影响可读性,而超过 15% 则毫无可读性。这两个数据被视为是语音识别的两条红线。在不同场景下,不同算法的表现可能存在很大差异。


活动现场,横向对比测试结果依次呈现在大屏幕上,引来在场诸多人士拍照。这在一定程度上展示了依图在特定测试条件下的技术领先性,同时也反映出业界所谓的「成熟」中文语音识别方案还存在诸多提升和改进空间。


微信图片_20211130163318.jpg


比如,在公开数据集 AISHELL-2 中,依图短语音听写的字错率为 3.71%,领先原业内领军者约 20%。在手机进场(接近可用)场景下,依图语音的字错率为 3.6%,排名第二云知声开放平台字错率为 4.2%,依图语音领先云知声开放平台近 17%。


微信图片_20211130163316.jpg


比如,在非公开数据集的电话场景中第一类「电话闲聊」场景下,只有依图语音和讯飞听见(异步模型)在稍微接近 15% 字错率的下限,即「勉强可用」。而排名靠后的阿里云智能语音、云知声开放平台、腾讯 AI 开放平台-WeChat、讯飞开放平台、百度开放平台远场方案在电话闲聊、电话客服场景下均超过了 15% 字错率,即「毫无可读性」。


微信图片_20211130163313.jpg


在远场演讲场景下,除依图语音和讯飞听见(异步模型)的平均字错率达到可用容错范围外,阿里云智能语音、云知声开放平台、微信开放平台-WeChat 流式、百度开放平台等基本「全军覆没」,均明显高于平均字错率 15% 的下限。此外,从测试结果中也可以看到,各家算法在远场演讲场景下的表现落差较大。


有媒体人士评价,依图如此掀开语音识别市场「遮羞帘」的做法真是耿直!


微信图片_20211130163310.jpg


此外,在通用性层面,柱状图宽度越小,说明字错率浮动范围越小,算法的场景通用性越好。综合各场景测试的结果,业界主流算法中,依图和讯飞的算法字错率浮动范围相对较小。


上述检测结果难免触及其他友商的利益和技术权威性,业界不少人对其客观性和公正性提出质疑,机器之心针对该类问题与依图科学家吴双博士向依图进行了交流。值得注意的是,上述横向对比方案均为各厂商的开放平台方案,并未完全代表各家在语音识别领域的综合实力水平。


1、机器之心:测试结果采用自家测试的方案,在测试方法、测试设备的公平性上如何保证?测试对象是否符合双盲随机原则?


吴双:依图自有的数据集、算法 API 将在近期公开。在所有公开数据集上的测试结果均可复现上述结果。基于非公开的各家自有数据测试集上的不同测试结果,我建议大家都把数据集公开,用公开的测试数据集的结果体现水平,这样大家的测试结果均可以被其他家测试验证,公正性就有了保证。


2、机器之心:测试结果除了与软件算法相关,硬件设备,尤其是麦克风阵列排布影响到的拾音效果也可能间接影响语音识别的准确率。上述展示的测试结果都是基于同一款设备吗?


吴双:上述测试涉及到了多种硬件设备,比如智能音箱、手机以及其他硬件设备。我们希望能够覆盖更多硬件设备。硬件方案的确会影响语音识别效果。但是面向不同的识别场景,我们都是调用同一套算法,同一套 API。


02 如何实现一年超越「讯飞」们?


相比计算机视觉技术的发展和落地,语音识别研究显然起步更早,对应的玩家形态和市场格局也更为成熟。众所周知地,科大讯飞在语音识别领域的积淀和商业化已有十余年历史,近几年 BAT 玩家的涌入也来势汹汹,接口免费、平台开放的政策接二连三。在看似已成定局的赛场上,依图如何后来者「居上」?


谈到语音识别领域的研发历程,吴双表示,大约是一年左右不到的时间,即去年底今年初投入力量进行语音识别方案的研发,但在语义理解层面,依图已经有所建树,比如在医疗领域,电子病历理解的应用。


实际上,早在今年的一次公开活动上,依图科技联合创始人林晨曦曾接受相关媒体采访时表示,依图科技接下来会继续进军语音识别和自然语言处理,要在这两个领域也做到超越人类水平。


相比语音识别领域已有的巨头玩家,依图在数据量积累和模型训练时间等核心层面均不占据优势。但是依图却在短短一年时间内,数据量相比巨头有限的情况下,在部分测试集和核心指标上超过了前者。


对于其原因,吴双认为,强化学习、对抗学习等技巧层面的策略大家都会跟进,做算法优化并没有捷径。在方法论和做事态度层面有依图在视觉领域的经验作为基础。目前,依图语音的表现是相对意义上的性能提升,平均算法性能领先 11%,在某些特定的场景下领先更多。


对于语音市场看似产品繁多,但真实体验却与宣传效果存在差距的现象,依图科技首席创新官、前 Google Research Scientist 吕昊博士认为主要原因有三,其一,业界缺乏系统性的标准测试、测试集,而覆盖多维度多场景的数据成本过高;此外,工业界语音识别的水平已经远超过学术界,但与此同时,也缺乏体验和比较的工具。


微信图片_20211130163306.jpg

左为依图科技首席创新官吕昊,右为华为智能计算渠道合作部部长康鑫


活动现场,依图方面还宣布了将联合微软推出语音开放平台,依图的语音识别方案将在微软云 Azure 上线。依图科技将联合华为推出智能语音解决方案。此前,依图还与华为联合发布了面向泛安防场景的智慧园区和视频云人像大数据解决方案。


活动现场,华为智能计算渠道合作部部长康鑫谈到,在华为的 160 个 ISV 中,依图已经成为华为最顶级的 ISV 合作伙伴。从目前合作模式来看,依图语音技术的落地方式主要面向 B 端客户。


据公开资料显示,依图科技最近一轮融资在今年 3 月完成,红杉资本中国、高瓴资本、高榕资本等投资方也持续跟投,该轮融资中依图科技公司整体估值为 150 亿人民币。


对于依靠人工智能第四波浪潮快速成长的独角兽而言,经过 2018 年落地商业化的考验之后,拓宽业务领域和加强解决方案的完整性成为提升竞争力的关键。


可以看到的是,以视觉方案为主的依图、云从开始切入语音市场,而以语音方案为主的云知声则开始在图像识别领域布局。业内人士表示,在智能家居、智能汽车、智能医疗等领域,未来的交互肯定是多模态的,不会是单一的语音、或者单一的图像功能。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
198 4
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12238 116
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
7天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
25 0
|
8天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
16 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
87 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
94 1
|
4月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
177 3
|
3月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
67 0
下一篇
无影云桌面