语音顶会Interspeech 论文解读|Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Zhiying Huang, Shiliang Zhang, Ming Lei的论文《Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation 》

点击下载论文

文章解读

音频打标是音频场景和事件分析的任务之一,它的作用是判断音频中所包含的声音事件。近年来,卷积神经网络在音频打标任务上显示特别优异的性能。但是,由于卷积神经网络的模型复杂度较高,其难以被应用于实际产品中。另外,对于一些特定领域,存在低资源的情况,此时音频打标的性能无法保证。

在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

基于cFSMN的音频打标:对应的模型结构图如图1所示。其中,模型的输入是音频片段的声学特征,输出是不同声音事件的概率。模型是由cFSMN和深层神经网络(Deep Neural Network, DNN)堆叠而成,即混合cFSMN-DNN模型。

基于AAR的数据扩增方法:流程图如图2所示。首先,在已有的训练集中随机抽取两个音频片段:A和B。然后,基于设定的AAR调整B的能量,从而获得B’。最后,将音频片段A和B’进行信号层面的叠加,新生成的音频片段A_B’即为新增的数据。

图1.png
图 1基于cFSMN的音频打标

图2.png
图 2基于AAR的数据扩增方法

表1.png
表 1不同方法性能对比

性能:表1罗列出不同模型算法的性能。AlexNet(BN)是一个很健壮的CNN系统,性能最好。在相同训练集下,cFSMN的方法获得了与AlexNet(BN)相当的性能,并且只需要AlexNet(BN) 的1/30模型参数量(1.9M)。进一步地,在cFSMN基础上进行数据扩增,性能获得了进一步提高(0.932的AUC值)。在相同的训练集和测试集下,这个性能是现有发表论文中最优的结果。

总结:我们的工作是首次将cFSMN应用于音频打标任务,获得了与AlexNet(BN)相当的性能。同时,我们提出了基于AAR的数据扩增方法来进一步提升音频打标的性能。下一步,考虑到声音事件的依存关系,我们将探索不同声音事件的分布,以获得更好的效果。

文章摘要

Audio tagging aims to identify the presence or absence of audio events in the audio clip. Recently, a lot of researchers have paid attention to explore different model structures to improve the performance of audio tagging. Convolutional neural network (CNN) is the most popular choice among a wide variety ofmodelstructures,andit’ssuccessfully appliedtoaudioevents prediction task. However, the model complexity of CNN is relatively high, which is not efficient enough to ship in real product. In this paper, compact Feedforward Sequential Memory Network (cFSMN) is proposed for audio tagging task. Experimental results show that cFSMN-based system yields a comparable performance with the CNN-based system. Meanwhile, anaudio-to-audioratio(AAR)baseddataaugmentationmethod is proposed to further improve the classifier performance. Finally, with raw waveforms of the balanced training set of Audio Set which is a published standard database, our system can achieve a state-of-the-art performance with AUC being 0.932. Moreover, cFSMN-based model has only 1.9 million parameters, which is only about 1/30 of the CNN-based model.
Index Terms: Audio Set, audio tagging, compact feedforward sequentialmemorynetwork,audio-to audioratio,dataaugmentation

阿里云开发者社区整理

相关文章
|
存储 网络协议 网络安全
RTSP协议抓包及讲解(三)
RTSP协议抓包及讲解
404 1
|
人工智能
【Mixup】探索数据增强技术:深入了解Mixup操作
【Mixup】探索数据增强技术:深入了解Mixup操作
1464 0
|
机器学习/深度学习 分布式计算 DataWorks
EasyRec 使用介绍|学习笔记
快速学习 EasyRec 使用介绍。
1985 0
|
4月前
|
机器学习/深度学习 自然语言处理 数据可视化
22_注意力机制详解:从基础到2025年最新进展
在深度学习的发展历程中,注意力机制(Attention Mechanism)扮演着越来越重要的角色,特别是在自然语言处理(NLP)、计算机视觉(CV)和语音识别等领域。注意力机制的核心思想是模拟人类视觉系统的聚焦能力,让模型能够在处理复杂数据时,选择性地关注输入的不同部分,从而提高模型的性能和可解释性。
|
7月前
|
机器学习/深度学习 算法 自动驾驶
深度学习与图像处理 | 基于传统图像处理的自动驾驶车道线检测
本节介绍了基于OpenCV的传统图像处理算法在车道线检测中的应用,重点讲解了如何通过HSV颜色空间提取黄色和白色车道线、使用高斯模糊降噪、Canny算子提取边缘、感兴趣区域裁剪以及霍夫变换检测线段。最终通过对检测到的线段进行聚类与平均,得到代表左右车道线的直线,并实现车道线的可视化显示。该方法为自动驾驶小车提供了转向控制依据。
554 2
|
机器学习/深度学习 自然语言处理 监控
深度学习之声音事件检测
基于深度学习的声音事件检测(Sound Event Detection, SED)是指从音频数据中检测并识别出特定的声音事件(如玻璃破碎、狗叫声、警报声等)。这种技术被广泛应用于智能家居、城市监控、医疗监护等领域,随着深度学习的进步,其性能和准确性得到了显著提升。
1376 0
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
882 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
存储 开发者 Docker
|
机器学习/深度学习 人工智能 数据挖掘
【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
983 0

热门文章

最新文章