盘点麦克风技术及市场,远场语音交互如何选型麦克风?

简介:

智能语音交互市场的火热逐渐辐射到产业链的供应商,其中最直接受益就是作为声音的传感设备——麦克风。特别是麦克风阵列的兴起,未来可以让麦克风厂家的销量翻倍增长。在此之前,由于受制于智能手机和平板电脑的增长速度下滑,楼氏、歌尔和瑞声等麦克风厂商的股票相继在2016年中旬左右创下了低谷。

2017年的语音交互局势趋于明朗,资本市场专注研究智能语音交互的投资机构也明显多了起来。那么,这就有必要深入了解一下麦克风这个行业以及技术的趋势。

什么是麦克风?有哪些种类和指标参考?

麦克风作为业界通俗的一种叫法,是英文Microphone的音译名称,国内的称呼乱一些,有时候也简单称作话筒,香港和台湾地区也会称作微音器、拾音器。麦克风的中文学术名称正式是译作传声器,这是一种将声音转换成电子信号的换能器,即把声信号转成电信号,这其实和光电转换的原理是完全一致的。 

消费级市场的麦克风基本都是标量麦克风,也就说只能采集单一的物理量信息——声压。声压是指声波通过媒质时,由振动所产生的压强改变量,也可以理解为声音的幅度或者强度。声压常用字母"p"表示,单位是帕斯卡(符号Pa)。声压的帕斯卡单位由于不方便记忆(比如20x10-6Pa~20Pa),一般就以对数尺衡量有效声压相对于一个基准值的大小来表示,即声压级,其单位是分贝(符号dB)。

人类对于1KHz的声音的听阈为20 x10-6Pa,通常以此作为声压级的基准值。这样讲可能晦涩难懂,我们来简单的类比一下:人类的呼吸声压是60x10-6Pa左右,声压级大约10dB,火箭发射的声压是4000Pa左右,声压级大约165dB,闪光弹的声压超过1万Pa,声压级大约175dB。 

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

分析上述这些晦涩难懂的数字,自然就引出麦克风的参数指标,其实我们关注的就是麦克风还原真实声音的能力,这是一个很难的挑战,因为声电转换即意味着失真。

为了描述麦克风的性能,有几个性能指标是非常关键的,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。这几个指标其实都好理解,决定了麦克风的性能,而且每个指标都非常关键,缺一不可。当然这些指标相对于喇叭的T-S参数来说,真的是简单的了许多。

麦克风是典型的传感器产业,其技术迭代非常迅速,外观也发生了不少变化,估计很多人从下面的麦克风阵列中准确找到麦克风就很困难。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

现在麦克风阵列主要使用的是数字MEMS麦克风,其最长尺寸仅有3.76MM。MEMS麦克风也是手机中大量使用的传感器件,一般手机至少有2个以上这类麦克风。MEMS麦克风实际上只是工艺上的改进,其原理依然属于电容式麦克风。与MEMS麦克风直接PK的,就是驻极体麦克风。

这两种麦克风是消费电子领域的主力军,比如亚马逊的Echo和声智科技的开发板主要是MEMS麦克风,科大讯飞的开发板则主要是驻极体麦克风。这两种麦克风从性能指标来看,没有实质性差别,驻极体麦克风的性能指标还更高,所以声智科技的单麦系列也是驻极体麦克风,但是,MEMS麦克风的优点是一致性比较好,更适合远场语音交互用的麦克风阵列。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

电容式麦克风还有另外一个形状,就是录音棚常用的专业麦克风,这与我们KTV唱歌的麦克风是有本质区别的。KTV的麦克风一般都是动圈式麦克风,这种麦克风的性能不如电容麦克风,优点是适合人声收录,缺点是灵敏度低,这在KTV反而是优点,因为可以有效避免KTV环境的啸叫。

当然,还有带式麦克风和碳精麦克风,这两种麦克风已经不常见了,特别是碳精麦克风,以前主要在老式电话中使用,现在基本被淘汰了。这几种麦克风可以从图中对比一下,有时候就会慨叹,技术总是这样颠覆式发展。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

当然,新型的麦克风还包括压电麦克风、光纤麦克风、激光麦克风等等,甚至可以直接把电视屏幕或者扬声器(喇叭)也当作麦克风使用。另外,国防领域也在研究部署矢量麦克风等更复杂的麦克风。事实上,声音的发展轨迹和雷达比较类似,麦克风阵列也是当前技术发展的一个阶段,传感技术的迭代是技术和市场迭代的重要原因。

全球麦克风的技术和市场的格局如何?

毫无疑问,在半导体生态体系中,MEMS正扮演着越来越重要的角色,其应用范围包含了消费电子、汽车工业、工业控制乃至生物医学、航空航天等领域,且仍在迅速扩大。随着消费电子市场的增长,消费类应用已经成为MEMS传感器市场的主要推动力。2014年MEMS传感器市场规模达到130亿美元,最大的消费类应用规模达到59亿美元,到2019年预计将超过250亿美元,年复合增长率约11.2%。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

我们比对了最新的行业调研数据,从2013年到现在其市场格局变化并没有想象的变化,反而是这几年MEMS厂商集体进入了低速发展的时期,还好今年的语音交互市场火爆,也给MEMS麦克风市场带来了想象空间。

下面还是以互联网公开的数据来概况介绍下市场,已经公开报道了3年,相信很多质疑的声音也都消失了。这些数据并不能代表真实情况,特别是当前的市场状态,但是可以作为一个重要的参考。

根据IHS的统计数据,美国公司楼氏电子在2013年是全球最大的已封装MEMS麦克风(直接进行印刷电路板组装)供应商;而德国公司英飞凌则是MEMS麦克风裸晶(供应给MEMS麦克风制造商)的龙头厂商。楼氏的营收在已封装MEMS麦克风市场中占据59%的比例,英飞凌出货量则在MEMS麦克风裸晶市场占据78%。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

全球已封装MEMS麦克风供应商营收排行榜(单位:百万美元)

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

全球MEMS麦克风裸晶供应商出货量排行榜

在已封装MEMS麦克风市场,排名第二的供应商为瑞声(AAC),营收市占率13%;排名第三的则是歌尔(Goertek),营收市占率7%。瑞声与歌尔都是中国厂商,其业务也重度依赖苹果和三星;

瑞声供应iPhone5三颗高性能MEMS麦克风中的一颗,也进驻了iPhone5S;歌尔则是iPhone专用的耳机MEMS麦克风主要供应商。瑞声2013年营收成长8%,歌尔则因为开始供应手机用高性能麦克风,2013年营收成长率高达35%。当然,经过这3年市场变化,楼市、瑞声和歌尔这三家的市场份额其实也发生了悄然改变,楼氏继续强化了其行业龙头的地位。

排名全球第四大已封装MEMS麦克风供应商的是韩国BSE,其业绩表现来自于拥有苹果最大对手三星这个大客户;BSE的2013年营收与2012年相较,成长率超过250%。紧追在BSE之后排名第五大的厂商则是欧洲业者意法半导体(ST),该公司的MEMS麦克风业务因为赢得了iPad设计案而持续扩张。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

全球排名前50位MEMS厂商

国内包括台湾也有一些麦克风厂商,这些厂商主要依靠价格制胜,技术方面并没有建立起太高的壁垒。国内外也出现了一些创业公司,比如美国的Vesper MEMS,以压电麦克风作为主要技术特点,但是这些技术本身就是一线大厂掌握的技术,只是考虑市场因素而没有产线部署。所以这类创业公司当进入量产的时候压力还是非常大的,因为这个行业确实需要重资产和重投入。

如何选型适用远场语音交互的麦克风? 

远场语音交互的概念其实是相对的。我们知道,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。

  • 声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下人的声音;

  • 语音识别则是把听到的人声翻译成文字;

  • 语义理解则分析这些文字的意义;

  • 语音合成就把机器要表达的文字翻译成语音。

这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。

这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。

以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。

显然,这又是一个崭新的技术领域,因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减,而且还带来了复杂的真实环境以及复杂的用户习惯。

近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。

但是,若声源距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同样的,我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。

通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。而且,由于真实场景总是有多个声源和环境噪声叠加,比如经常会出现周边噪声干扰和多人同时说话的场景,这就更加重了语音识别的难度。因为当前的语音识别引擎,都是单人识别模式,无法同时处理多人识别的问题。

麦克风阵列是当前解决上述问题的主要途径,但是麦克风阵列也有诸多缺陷,其中之一就是对于硬件的要求较高,这包括了麦克风和芯片器件。因此麦克风阵列如何选型麦克风也是非常细致认真的一个工作。那么,如何选型智能语音交互的麦克风呢?

首先选型前我们要对产品有一个清晰的定义,比如产品销量、产品寿命、产品场景等等,这非常重要。即便性能指标完全一致的情况下,也需要考虑麦克风供应厂商的成本、生产工艺、供货能力等因素,因为传感器件厂商归根结底还是一个生产工艺的问题,比如国内的很多麦克风厂商其实就是直接购买国外英飞凌的MEMS麦克风方案直接封装,并不具有技术研发能力,其生产工艺和生产规模就是国内很多厂商的主要差异。

其次选型要重点评估麦克风的性能指标,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性这几个指标,其中指向性、信噪比、AOP和一致性是麦克风阵列最主要考虑的指标。

一般来说,指向性也就如下图所示的几种类型,各大厂商之间没有实质性差异。

而信噪比(SNR)和AOP对于楼氏、歌尔和瑞声三个巨头来说,相差也不是太大,比如SNR基本都在65dB以上,AOP也都大于120dB,这个参数以上的麦克风质量是当前较为可靠和成熟的,也是一线大厂的主要供应型号。

一致性对于麦克风阵列则是需要特别考量的指标,因为MEMS麦克风需要焊接,这不能对于焊机厂商提出太苛刻的要求,当焊接以后麦克风是否还能保证一定的性能,这对于麦克风厂商来说就是巨大的考验。所以,并不要轻信麦克风厂商提供的技术指标和承诺,需要认证考察他们的工厂以及生产车间及管理。

盘点麦克风技术及市场,远场语音交互如何选型麦克风?

最后选型必须实际抽检麦克风的质量,即良品率。从声智科技的经验来看,当批量生产的时候,有时候批次不一样,导致麦克风的差异会很大,特别是一些中小的麦克风供应厂商。而且尤为麻烦的是,MEMS的更换成本也很大,一旦贴片焊接,若出现问题往往导致批量的麦克风报废。当然,这只是量大的时候才需要重点考虑,当量小的时候这个问题不是太过关键。

 MEMS竞争激烈,新兴市场谁主沉浮?

但是不得不说,MEMS的市场竞争实际上一直非常激烈,前面也提到了这个市场已经诞生了包括楼氏、歌尔、瑞声、STM、Invense等巨头,并且占据了其中80%以上的市场。虽然现在市场从手机和平板,逐渐向IOT设备过渡,但是当前的存量市场仍然还是手机和平板,IOT的量并不是太大。那么这就产生了两个问题。

一、这个市场未来到底是巨头垄断还是巨头衰退?

虽然新兴的语音交互市场对于麦克风器件是一个强需,但是这种场景变化会不会导致巨头的市场变化?未来真的是都很难说,只能给出几点思考以供参考:

  • 一是语音交互市场的强需是麦克风阵列,并非麦克风的元器件,因为对于麦克风厂商来说,除了增加了更多客户,其客户实质上并没有变化,也没有更高技术方面的需求。从这点来看导致现有MEMS市场格局变化的理由还不够充分。

  • 二是若从技术层面来看,所有的技术厂商都需要关注技术的升级迭代,比如对于低功耗、高集成、矢量化麦克风的需求,若这些一线厂商不跟踪技术的进展,当技术颠覆的时候很可能就会被取代,驻极体麦克风的供应商很可能短期内就会面临这个严峻问题。当然,总会有些公司的处境比较尴尬,特别是一些厂商当遇到麦克风技术和市场挑战的时候选择退缩转型,转型经常会做成转行,这对于传感器厂商来说是巨大的挑战。

二、这个市场还有没有创业机会?

从机会均等的角度来看,任何一个行业都存在众多创业的机会,核心就在于如何把握和利用。这和芯片行业有些类似,麦克风的行业属性决定了其必然是重资产的模式,包括设备和产线的规模投入,另外成本把控、产线管理和加工工艺也都是其核心要素,这些核心技术事实上每项都是极大的投入。

另外,有理想的厂商应该是坚持走技术驱动的路线,比如瑞声科技和歌尔声学刚开始都是购买英飞凌的MEMS和ASIC芯片,然后封测卖给客户,这样长时间技术积累,再利用收购,这两家公司也逐步掌握了MEMS麦克风技术。那么对于其他厂商来说,这条路是不是可以复制或者超越,再或者干脆转型,这是一个非常痛苦的过程。

小结

MEMS麦克风未来的市场空间必然更大,其技术要求也会越来越高,在巨头已经林立的情况下,新兴的创业公司如何抓住机会突围或者分享蛋糕,这是一个痛苦的考验。到底是顶住压力直面竞争,还是退缩转型其他市场,这是经常摆在所有创业者面前现实的问题。



本文作者:陈孝良
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12209 116
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
13 0
|
3天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
8 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
86 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
93 1
|
4月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
170 3
|
3月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
63 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
231 0

热门文章

最新文章