在机器学习中,梅尔滤波器组(Mel-filterbank)这种固定的、手工制作的声音表示,经常被用于训练声音分类算法中。
在它出现几十年后,研究表明,它们表现出了适合表示学习的数学特性;
换句话说,它们代表了强大的音频特征。
但是Mel-filterbank的设计也存在偏差,而这些偏差,对于在高频率下需要细粒度分辨率的任务来说,是有害的。
为了解决这一问题,向人工智能替代领域迈进,谷歌的研究人员开发了「LEAF」。
该前端将Mel滤波器组分解为了几个成分——过滤、池化和压缩/标准化,来创建具有最小偏差的音频分类模型。
研究人员称,LEAF可以学习到一组性能优于Mel-filterbank的参数,这表明,LEAF可以用于通用音频分类任务。
目前,该文章已经在ICLR2021上正式登出。
声音识别市场庞大,LEAF应运而出,涵盖八大分类问题
根据Grand View Research的数据,我们可以发现,到2018年,全球声音识别市场的价值已经达到了6650万美元,因此,LEAF的产生非常具有现实意义。
除了在语音识别领域的用处,听觉能力本身也已经成为人工智能的关键:
声音可以使AI能够理解环境,并区分环境中发生的各种事件。
例如,如果有人入侵,带有AI驱动的声音感应技术的事件管理系统会打开灯,并大声播放音乐来阻止入侵,同时,它还会向住户发送警报。
图:Amazon的Echo Dot
而LEAF的出现,为这类产品的生产无遗提供了极大便利。
在实验中,研究人员使用LEAF开发了八种不同分类问题的独立单任务监督模型:
这八种分类问题包括了声音场景分类、鸟鸣检测、情感识别、说话人识别、乐器和音高检测、关键字识别和语言识别。
研究人员表示,使用LEAF创建的模型优于或几乎优于所有替代品,或与其他前端有着相匹配的准确性。
仅仅几百参数,LEAF源代码即将上线
Google的研究团队计划在不久后发布他们的模型、baseline、以及经过预训练前端的源代码。
在论文中,研究者写道:
「在这项工作中,我们提出了一个有可信度的能实现替代Mel-filterbank的模型,应该评估其在多个任务的表现这一观点,
此外,我们还做出了对于广泛多样声音信号的可学习的前端的深入研究,其中,声音信号包含了语音、音乐、音频事件以及动物声音等等」
「通过将Mel-filterbank分解为三个部分,我们提出了一种全新的前端——LEAF。该前端仅由几百个参数控制,并且所有操作都是完全可学习的。
「当为每个独立的任务训练不同的模型时,上述优点都存在。此外,这些结果在具有挑战性的大规模基准测试中也得到了证明。」
参考链接: