仅数百参数,Google发布「最小偏差」音频分类前端LEAF

简介: Mel-filterbank经常被用于训练声音分类算法,然而它存在的偏差也令其有明显的局限性。近日,Google提出了一种优于Mel-filterbank的前端LEAF,这种前端可以创建出具有最小偏差的音频分类模型。

微信图片_20220112115506.png


在机器学习中,梅尔滤波器组(Mel-filterbank)这种固定的、手工制作的声音表示,经常被用于训练声音分类算法中。

 

在它出现几十年后,研究表明,它们表现出了适合表示学习的数学特性;

 

换句话说,它们代表了强大的音频特征。

 

但是Mel-filterbank的设计也存在偏差,而这些偏差,对于在高频率下需要细粒度分辨率的任务来说,是有害的

 

为了解决这一问题,向人工智能替代领域迈进,谷歌的研究人员开发了「LEAF」。


微信图片_20220112115508.png


该前端将Mel滤波器组分解为了几个成分——过滤、池化和压缩/标准化,来创建具有最小偏差的音频分类模型

 

研究人员称,LEAF可以学习到一组性能优于Mel-filterbank的参数,这表明,LEAF可以用于通用音频分类任务。

 

目前,该文章已经在ICLR2021上正式登出。


声音识别市场庞大,LEAF应运而出,涵盖八大分类问题


根据Grand View Research的数据,我们可以发现,到2018年,全球声音识别市场的价值已经达到了6650万美元,因此,LEAF的产生非常具有现实意义。

 

除了在语音识别领域的用处,听觉能力本身也已经成为人工智能的关键:

 

声音可以使AI能够理解环境,并区分环境中发生的各种事件。

 

例如,如果有人入侵,带有AI驱动的声音感应技术的事件管理系统会打开灯,并大声播放音乐来阻止入侵,同时,它还会向住户发送警报。


微信图片_20220112115510.png


图:Amazon的Echo Dot


而LEAF的出现,为这类产品的生产无遗提供了极大便利。

 

在实验中,研究人员使用LEAF开发了八种不同分类问题的独立单任务监督模型:

 

这八种分类问题包括了声音场景分类、鸟鸣检测、情感识别、说话人识别、乐器和音高检测、关键字识别和语言识别

 

研究人员表示,使用LEAF创建的模型优于或几乎优于所有替代品,或与其他前端有着相匹配的准确性。


仅仅几百参数,LEAF源代码即将上线

 

Google的研究团队计划在不久后发布他们的模型、baseline、以及经过预训练前端的源代码。

 

在论文中,研究者写道:

 

「在这项工作中,我们提出了一个有可信度的能实现替代Mel-filterbank的模型,应该评估其在多个任务的表现这一观点,


此外,我们还做出了对于广泛多样声音信号的可学习的前端的深入研究,其中,声音信号包含了语音、音乐、音频事件以及动物声音等等」

 

「通过将Mel-filterbank分解为三个部分,我们提出了一种全新的前端——LEAF。该前端仅由几百个参数控制,并且所有操作都是完全可学习的。



「当为每个独立的任务训练不同的模型时,上述优点都存在。此外,这些结果在具有挑战性的大规模基准测试中也得到了证明。」

 

 

参考链接:

https://venturebeat.com/2021/01/25/researchers-propose-leaf-a-frontend-for-developing-ai-classification-algorithms/


相关文章
|
前端开发
调试前端时,在浏览器上修改参数并重新调用接口
有时候我们的页面点击过了,但是接口出问题,想修改参数再调用一次,一般是用apiPost工具把接口复制,再加上token和参数,但是这样非常的效率比较低。
2249 0
|
2月前
|
前端开发 JavaScript 算法
【CSS】前端三大件之一,如何学好?从基本用法开始吧!(八):学习transition过渡属性;本文学习property模拟、duration过渡时间指定、delay时间延迟 等多个参数
transition过渡属性 早期在Web中要实现动画效果,都是依赖于JavaScript或Flash来完成。 但在CSS3中新增加了一个新的模块transition,它可以通过一些简单的CSS事件来触发元素的外观变化, 让效果显得更加细腻。简单点说,就是通过鼠标经过、获得焦点,被点击或对元素任何改变中触发, 并平滑地以动画效果改变CSS的属性值。 在CSS中创建简单的过渡效果可以从以下几个步骤来实现: 在默认样式中声明元素的初始状态样式; 声明过渡元素最终状态样式,比如悬浮状态; 在默认样式中通过添加
226 0
|
2月前
|
前端开发 JavaScript 算法
【CSS】前端三大件之一,如何学好?从基本用法开始吧!(七):学习ransform属性;本文学习 rotate旋转、scale缩放、skew扭曲、tanslate移动、matrix矩阵 多个参数
transform变形 css3在原来的基础上新增了变形和动画相关属性,通过这些属性可以实现以前需要大段JavaScript才能实现的 功能。 CSS3的变形功能可以对HTML组件执行位移、旋转、缩放、倾斜4种几何变换,这样的变换可以控制HTML组件 呈现出丰富的外观。 借助于位移、旋转、缩放、倾斜这4种几何变换,CSS3提供了transition动画。 transition动画比较简单,只要指定HTML组件的哪些CSS属性需要使用动画效果来执行变化,并指定动画时间,就可保证动画播放。 比transitio
165 1
|
2月前
|
前端开发 算法 Java
【CSS】前端三大件之一,如何学好?从基本用法开始吧!(九):强势分析Animation动画各类参数;从播放时间、播放方式、播放次数、播放方向、播放状态等多个方面,完全了解CSS3 Animation
Animation属性 css3为Animation动画提供的几个属性如下: 属性名 属性值 animation-name 指定动画名称,该属性指定一个已有的关键帧定义。 animation-duration 指定动画持续时间。 animation-timing-funtion 指定动画变化速度。 animation-delay 指定动画延迟多长时间才开始执行。 animation-iteration-count 指定动画的循环执行次数。 animation:这是一个复合属性。
238 2
|
4月前
|
SQL 前端开发 安全
前端参数校验与SQL注入防护:构建安全的应用防线
在Web开发中,前端参数校验不仅能提升用户体验,更是防御SQL注入等安全威胁的重要手段。本文分享前端校验的最佳实践,包括输入格式校验与参数类型转换,帮助开发者有效增强应用安全性。
259 0
|
前端开发 BI
jeecgboot中前端使用带有参数报表的方法
jeecgboot中前端使用带有参数报表的方法
597 0
|
前端开发
前端input上传文件获取视频或音频的时长
前端input上传文件获取视频或音频的时长
646 0
|
机器学习/深度学习 弹性计算 自然语言处理
前端大模型应用笔记(二):最新llama3.2小参数版本1B的古董机测试 - 支持128K上下文,表现优异,和移动端更配
llama3.1支持128K上下文,6万字+输入,适用于多种场景。模型能力超出预期,但处理中文时需加中英翻译。测试显示,其英文支持较好,中文则需改进。llama3.2 1B参数量小,适合移动端和资源受限环境,可在阿里云2vCPU和4G ECS上运行。
660 1
|
JSON 前端开发 数据格式
@RequestMapping运用举例(有源码) 前后端如何传递参数?后端如何接收前端传过来的参数,传递单个参数,多个参数,对象,数组/集合(有源码)
文章详细讲解了在SpringMVC中如何使用`@RequestMapping`进行路由映射,并介绍了前后端参数传递的多种方式,包括传递单个参数、多个参数、对象、数组、集合以及JSON数据,并且涵盖了参数重命名和从URL中获取参数的方法。
1277 0
@RequestMapping运用举例(有源码) 前后端如何传递参数?后端如何接收前端传过来的参数,传递单个参数,多个参数,对象,数组/集合(有源码)
|
前端开发 JavaScript
这篇文章介绍了如何使用form表单结合Bootstrap格式将前端数据通过action属性提交到后端的servlet,包括前端表单的创建、数据的一级和二级验证,以及后端servlet的注解和参数获取。
这篇文章介绍了使用AJAX技术将前端页面中表单接收的多个参数快速便捷地传输到后端servlet的方法,并通过示例代码展示了前端JavaScript中的AJAX调用和后端servlet的接收处理。
这篇文章介绍了如何使用form表单结合Bootstrap格式将前端数据通过action属性提交到后端的servlet,包括前端表单的创建、数据的一级和二级验证,以及后端servlet的注解和参数获取。

热门文章

最新文章