仅数百参数，Google发布「最小偏差」音频分类前端LEAF

2022-01-12 405

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Mel-filterbank经常被用于训练声音分类算法，然而它存在的偏差也令其有明显的局限性。近日，Google提出了一种优于Mel-filterbank的前端LEAF，这种前端可以创建出具有最小偏差的音频分类模型。

微信图片_20220112115506.png

在机器学习中，梅尔滤波器组(Mel-filterbank)这种固定的、手工制作的声音表示，经常被用于训练声音分类算法中。

在它出现几十年后，研究表明，它们表现出了适合表示学习的数学特性;

换句话说，它们代表了强大的音频特征。

但是Mel-filterbank的设计也存在偏差，而这些偏差，对于在高频率下需要细粒度分辨率的任务来说，是有害的。

为了解决这一问题，向人工智能替代领域迈进，谷歌的研究人员开发了「LEAF」。

微信图片_20220112115508.png

该前端将Mel滤波器组分解为了几个成分——过滤、池化和压缩/标准化，来创建具有最小偏差的音频分类模型。

研究人员称，LEAF可以学习到一组性能优于Mel-filterbank的参数，这表明，LEAF可以用于通用音频分类任务。

目前，该文章已经在ICLR2021上正式登出。

声音识别市场庞大，LEAF应运而出，涵盖八大分类问题

根据Grand View Research的数据，我们可以发现，到2018年，全球声音识别市场的价值已经达到了6650万美元，因此，LEAF的产生非常具有现实意义。

除了在语音识别领域的用处，听觉能力本身也已经成为人工智能的关键：

声音可以使AI能够理解环境，并区分环境中发生的各种事件。

例如，如果有人入侵，带有AI驱动的声音感应技术的事件管理系统会打开灯，并大声播放音乐来阻止入侵，同时，它还会向住户发送警报。

微信图片_20220112115510.png

图：Amazon的Echo Dot

而LEAF的出现，为这类产品的生产无遗提供了极大便利。

在实验中，研究人员使用LEAF开发了八种不同分类问题的独立单任务监督模型：

这八种分类问题包括了声音场景分类、鸟鸣检测、情感识别、说话人识别、乐器和音高检测、关键字识别和语言识别。

研究人员表示，使用LEAF创建的模型优于或几乎优于所有替代品，或与其他前端有着相匹配的准确性。

仅仅几百参数，LEAF源代码即将上线

Google的研究团队计划在不久后发布他们的模型、baseline、以及经过预训练前端的源代码。

在论文中，研究者写道：

「在这项工作中，我们提出了一个有可信度的能实现替代Mel-filterbank的模型，应该评估其在多个任务的表现这一观点，

此外，我们还做出了对于广泛多样声音信号的可学习的前端的深入研究，其中，声音信号包含了语音、音乐、音频事件以及动物声音等等」

「通过将Mel-filterbank分解为三个部分，我们提出了一种全新的前端——LEAF。该前端仅由几百个参数控制，并且所有操作都是完全可学习的。

「当为每个独立的任务训练不同的模型时，上述优点都存在。此外，这些结果在具有挑战性的大规模基准测试中也得到了证明。」

参考链接：

https://venturebeat.com/2021/01/25/researchers-propose-leaf-a-frontend-for-developing-ai-classification-algorithms/

仅数百参数，Google发布「最小偏差」音频分类前端LEAF

声音识别市场庞大，LEAF应运而出，涵盖八大分类问题

仅仅几百参数，LEAF源代码即将上线

新智元

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

仅数百参数，Google发布「最小偏差」音频分类前端LEAF

声音识别市场庞大，LEAF应运而出，涵盖八大分类问题

仅仅几百参数，LEAF源代码即将上线

新智元

热门文章

最新文章

相关课程

相关电子书