12 月 11 日,擅长计算机视觉技术解决方案的依图科技在北京公开展示了语音识别领域的最新技术成果,并表示将在近期开放依图语音识别 API 接口以及部分测试数据集。同时,依图科技还宣布,将基于其语音识别技术与微软 Azure、华为推出联合方案平台。
01 最优测试结果如何保证客观性?
活动现场,依图首先展示了其语音识别小程序「听写大会」在歌词识别、飞机机舱混响环境下的播报识别结果,以及依图语音识别 API 在公开数据集、依图自有数据集、非公开数据集三类数据集上的平均错字率(CER)表现。
测试结果均以横向对比的形式体现,横向对比的其他主流方案包括讯飞听见、讯飞开放平台、云知声开放平台、阿里一句话、腾讯 AI 平台、百度语音-远场、百度语音-输入法、百度语音-搜索。
数据集是测试结果公正性的重要依据,为体现数据集的科学性和多样性。依图测试过程中涉及到的公开测试数据集包括:
- 全球最大中文普通话数据库 AISHELL1、AISHELL2(采用 iOS 系统,Android、Mic 性能类似,省略)、中文语音语料 THCHS30、PrimeWord、ST-CMDS;
- 依图自有数据集包括安静对话、混响数据集;
- 非公开数据集,即向第三方购买的数据集,包括语音助手场景、电话闲聊、电话客服、远场演讲、口音等场景的数据。
依图科学家吴双博士表示,该批测试完成于 2018 年 11 月底,数据覆盖了近 60 万字、50 小时的语料,近场/远场跨度在 20cm-10m,涵盖智能音箱、手机等多种设备,科技、医疗等超过 20 类话题领域。
在上述提到的所有测试数据集和测试场景中,依图语音的平均字错率表现均优于科大讯飞、百度等横向对比的主流语音方案商的开放平台方案。字错率是中文语音识别领域的关键性评估指标,一般认为字错率在低于 3% 时不会影响可读性,而超过 15% 则毫无可读性。这两个数据被视为是语音识别的两条红线。在不同场景下,不同算法的表现可能存在很大差异。
活动现场,横向对比测试结果依次呈现在大屏幕上,引来在场诸多人士拍照。这在一定程度上展示了依图在特定测试条件下的技术领先性,同时也反映出业界所谓的「成熟」中文语音识别方案还存在诸多提升和改进空间。
比如,在公开数据集 AISHELL-2 中,依图短语音听写的字错率为 3.71%,领先原业内领军者约 20%。在手机进场(接近可用)场景下,依图语音的字错率为 3.6%,排名第二云知声开放平台字错率为 4.2%,依图语音领先云知声开放平台近 17%。
比如,在非公开数据集的电话场景中第一类「电话闲聊」场景下,只有依图语音和讯飞听见(异步模型)在稍微接近 15% 字错率的下限,即「勉强可用」。而排名靠后的阿里云智能语音、云知声开放平台、腾讯 AI 开放平台-WeChat、讯飞开放平台、百度开放平台远场方案在电话闲聊、电话客服场景下均超过了 15% 字错率,即「毫无可读性」。
在远场演讲场景下,除依图语音和讯飞听见(异步模型)的平均字错率达到可用容错范围外,阿里云智能语音、云知声开放平台、微信开放平台-WeChat 流式、百度开放平台等基本「全军覆没」,均明显高于平均字错率 15% 的下限。此外,从测试结果中也可以看到,各家算法在远场演讲场景下的表现落差较大。
有媒体人士评价,依图如此掀开语音识别市场「遮羞帘」的做法真是耿直!
此外,在通用性层面,柱状图宽度越小,说明字错率浮动范围越小,算法的场景通用性越好。综合各场景测试的结果,业界主流算法中,依图和讯飞的算法字错率浮动范围相对较小。
上述检测结果难免触及其他友商的利益和技术权威性,业界不少人对其客观性和公正性提出质疑,机器之心针对该类问题与依图科学家吴双博士向依图进行了交流。值得注意的是,上述横向对比方案均为各厂商的开放平台方案,并未完全代表各家在语音识别领域的综合实力水平。
1、机器之心:测试结果采用自家测试的方案,在测试方法、测试设备的公平性上如何保证?测试对象是否符合双盲随机原则?
吴双:依图自有的数据集、算法 API 将在近期公开。在所有公开数据集上的测试结果均可复现上述结果。基于非公开的各家自有数据测试集上的不同测试结果,我建议大家都把数据集公开,用公开的测试数据集的结果体现水平,这样大家的测试结果均可以被其他家测试验证,公正性就有了保证。
2、机器之心:测试结果除了与软件算法相关,硬件设备,尤其是麦克风阵列排布影响到的拾音效果也可能间接影响语音识别的准确率。上述展示的测试结果都是基于同一款设备吗?
吴双:上述测试涉及到了多种硬件设备,比如智能音箱、手机以及其他硬件设备。我们希望能够覆盖更多硬件设备。硬件方案的确会影响语音识别效果。但是面向不同的识别场景,我们都是调用同一套算法,同一套 API。
02 如何实现一年超越「讯飞」们?
相比计算机视觉技术的发展和落地,语音识别研究显然起步更早,对应的玩家形态和市场格局也更为成熟。众所周知地,科大讯飞在语音识别领域的积淀和商业化已有十余年历史,近几年 BAT 玩家的涌入也来势汹汹,接口免费、平台开放的政策接二连三。在看似已成定局的赛场上,依图如何后来者「居上」?
谈到语音识别领域的研发历程,吴双表示,大约是一年左右不到的时间,即去年底今年初投入力量进行语音识别方案的研发,但在语义理解层面,依图已经有所建树,比如在医疗领域,电子病历理解的应用。
实际上,早在今年的一次公开活动上,依图科技联合创始人林晨曦曾接受相关媒体采访时表示,依图科技接下来会继续进军语音识别和自然语言处理,要在这两个领域也做到超越人类水平。
相比语音识别领域已有的巨头玩家,依图在数据量积累和模型训练时间等核心层面均不占据优势。但是依图却在短短一年时间内,数据量相比巨头有限的情况下,在部分测试集和核心指标上超过了前者。
对于其原因,吴双认为,强化学习、对抗学习等技巧层面的策略大家都会跟进,做算法优化并没有捷径。在方法论和做事态度层面有依图在视觉领域的经验作为基础。目前,依图语音的表现是相对意义上的性能提升,平均算法性能领先 11%,在某些特定的场景下领先更多。
对于语音市场看似产品繁多,但真实体验却与宣传效果存在差距的现象,依图科技首席创新官、前 Google Research Scientist 吕昊博士认为主要原因有三,其一,业界缺乏系统性的标准测试、测试集,而覆盖多维度多场景的数据成本过高;此外,工业界语音识别的水平已经远超过学术界,但与此同时,也缺乏体验和比较的工具。
左为依图科技首席创新官吕昊,右为华为智能计算渠道合作部部长康鑫
活动现场,依图方面还宣布了将联合微软推出语音开放平台,依图的语音识别方案将在微软云 Azure 上线。依图科技将联合华为推出智能语音解决方案。此前,依图还与华为联合发布了面向泛安防场景的智慧园区和视频云人像大数据解决方案。
活动现场,华为智能计算渠道合作部部长康鑫谈到,在华为的 160 个 ISV 中,依图已经成为华为最顶级的 ISV 合作伙伴。从目前合作模式来看,依图语音技术的落地方式主要面向 B 端客户。
据公开资料显示,依图科技最近一轮融资在今年 3 月完成,红杉资本中国、高瓴资本、高榕资本等投资方也持续跟投,该轮融资中依图科技公司整体估值为 150 亿人民币。
对于依靠人工智能第四波浪潮快速成长的独角兽而言,经过 2018 年落地商业化的考验之后,拓宽业务领域和加强解决方案的完整性成为提升竞争力的关键。
可以看到的是,以视觉方案为主的依图、云从开始切入语音市场,而以语音方案为主的云知声则开始在图像识别领域布局。业内人士表示,在智能家居、智能汽车、智能医疗等领域,未来的交互肯定是多模态的,不会是单一的语音、或者单一的图像功能。