检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(1)

简介: 检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2

翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。


近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高 8 倍。经 Da-Tacos 数据集上的评估,准确率远超其他方案的 SoTA 性能。

  • ByteCover2: 为高效翻唱识别系统设计的隐式嵌入降维方法


《BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION》

方法详述:翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,有三种音乐变化通常会被重点考虑,即音乐调式偏移、音乐结构变化和音乐节奏变化。此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题;另外在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本,也是字节跳动内部开发翻唱识别时面临的挑战。

在 ByteCover 系统中,团队通过多任务学习范式联合 ResNet-IBN 模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,还提出了 PCA-FC 模块,实践证明该模块在保证 ByteCover2 模型性能不变甚至提高的前提下可将向量尺寸压缩至八分之一。

Bytecover 模型结构与训练流程

多任务学习提高音乐检索能力:通常在翻唱识别领域存在两种训练范式,分别是多分类学习和度量学习。前者将每个曲目视为一个独立类别,在特征层后加上全连接层,并通过交叉熵等分类损失对模型进行训练,训练完成后则去掉全连接层,使用特征层的输出作为歌曲的表征;后者则直接在特征层之上,使用 triplet loss 等度量学习损失训练网络。

总体来看两种训练范式各有优劣,团队通过实验发现,分类损失往往能提高模型对同曲目不同风格版本的检索能力,细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。因此 ByteCover 对这两种学习范式进行了结合,并通过引入 BNNeck 模块,提高了两种损失的兼容性。

ResNet 网络与 IBN 正则化方法(ResNet & Instance-Batch Normalization):为了简化音乐特征提取的流程,加快特征提取速度,团队使用 CQT 频谱图作为模型的输入,而不使用在同期其他翻唱识别方法中常用的 cremaPCP 或其他更为复杂的特征,但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。

所以在选择卷积神经网络做了音乐表征提取网络,希望能利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明,CQT 谱 + 普通 ResNet 的组合就已经在效率和性能上超过 cremaPCP+CNN 的设计。

深入探究,团队引入了 Instance-Batch Normalization 来从网络隐表示的层面进一步学习和风格无关的音乐特征,即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN 通过对特征图的通道维度做的归一化处理,一定程度上实现了在隐藏表征层面上去除风格化信息,从而提高翻唱识别模型对音色变化的鲁棒性。

特征降维模块(PCA-FC):通过测算,团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段,而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加,因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路,而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。

实验结果发现,单纯使用全连接层进行降维会明显降低系统的检索能力,团队认为这种现象不仅因为更小的尺寸限制了向量的表征能力,性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。随后对数据可视化之后我们可以发现,降维后特征分布在一个锥形空间,表现出明显的各向异性,此种性质不利于使用余弦距离为度量的检索。

因此团队尝试使用 PCA 对特征向量进行降维操作并随后用 PCA 的变换矩阵初始化一个全连接层,把该层和特征提取网络连接进来并联合训练,并将模块称作 PCA-FC。实验结果显示, PCA FC 能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。

结果展示一直以来 Da-Tacos 作为用来评估翻唱识别的基准测试数据集被使用,在该数据集上采用 1536 维的 ByteCover2 模型取得了远超其他方案的 SoTA 性能,全类平均正确率指标 (mAP) 达到 79.1%;而 ByteCover 系列以外的最好方法 Re-MOVE 的该项指标只有 52.5%,更加值得被提及的一点,128 维的 ByteCover2 模型甚至超过了 2048 维的 ByteCover1 和 Re-MOVE 方法。

对比结果
此外,ByteCover1 系统还参加了 2020 国际音频检索评测大赛(MIREX),过程中大幅刷新了翻唱识别赛道历年最好记录,mAP 指标达到 84%,是同年参加该竞赛的其他方案性能的 14 倍。


除了 ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向,下面进行简单介绍。
智能音乐

  • HTS-AT:一种用于声音分类和检测的分层标记语义音频 Transformer 模型


《HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION》


文章主要介绍了 HTS-AT,这是一种新颖的基于 Transformer 的声音事件检测模型。针对音频任务的特性,该结构能有效提高音频频谱信息在深度 Transformer 网络中的流动效率,提高了模型对声音事件的判别能力,并且通过降低输出特征图的大小,显著降低了模型地计算量与内存消耗。此外 HTS-AT 还引入了 Token Semantic 模块,使模型具备预测声音时间起始与终止点的能力,并且无需使用额外有标注数据进行训练。

综合以上技术,HTS-AT 在标准数据集 AudioSet 上的 mAP 指标达到 0.471, 是当前的该数据集上的最佳水平,并且参数与计算量都小于之前的最佳方法;另外在声音事件定位任务上,HTS-AT 无需额外标注数据,即达到有监督定位模型的性能水平。

HTS-AT 模型的结构


在音乐识别场景中,声音事件检测模型会挑选包含音乐的片段送入音乐检索系统,以此来提高整个系统的效率与准确性。

  • S3T: 针对音乐分类基于 Swin Transformer 的自监督预训练



相关文章
|
机器学习/深度学习 缓存 人工智能
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
Transformer的基石自2017年后历经变革,2022年RoPE引领NLP新方向,现已被顶级模型如Llama、Llama2等采纳。RoPE融合绝对与相对位置编码优点,解决传统方法的序列长度限制和相对位置表示问题。它通过旋转矩阵对词向量应用角度与位置成正比的旋转,保持向量稳定,保留相对位置信息,适用于长序列处理,提升了模型效率和性能。RoPE的引入开启了Transformer的新篇章,推动了NLP的进展。[[1](https://avoid.overfit.cn/post/9e0d8e7687a94d1ead9aeea65bb2a129)]
2445 0
|
分布式计算 安全 Hadoop
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
714 0
|
前端开发 JavaScript
Layui之组件的基本使用及案例演示2
Layui之组件的基本使用及案例演示2
347 0
|
数据采集 Ubuntu 数据挖掘
PyHubWeekly | 第七期:5款Python小工具,最后一款会给惊喜
我们日常工作和学习中,会经常做一些重复性的动作,这让人很痛苦,却又很无奈,本期介绍的第5款工具就可以彻底解放你在网页端的各种重复且枯燥的工作。下面,就来看一下本期的内容吧。
PyHubWeekly | 第七期:5款Python小工具,最后一款会给惊喜
|
云安全 安全 Linux
阿里云安全证书购买和使用流程
阿里云安全证书是阿里云平台上的一种安全认证方式,它采用了国际上广泛认可的SSL证书标准,为网站提供安全加密的HTTPS连接。通过阿里云安全证书的申请和使用,可以实现网站的身份验证和数据传输加密,有效地保护网站的安全性和机密性,提高用户的信任度和网站的可信度。 阿里云安全证书具有多种优势。 首先,它具有极高的安全性,能够防止网络攻击和数据泄露等安全风险。 其次,它支持多种域名,可以为不同的网站和业务提供个性化的安全认证。 此外,阿里云安全证书还具有快速申请和部署的优点,可以大大缩短网站的安全认证周期。 同时,阿里云还提供了专业的技术支持和服务,保障了网站的安全稳定运行。
|
算法 数据可视化 搜索推荐
基于python的k-means聚类分析算法,对文本、数据等进行聚类,有轮廓系数和手肘法检验
本文详细介绍了基于Python实现的k-means聚类分析算法,包括数据准备、预处理、标准化、聚类数目确定、聚类分析、降维可视化以及结果输出的完整流程,并应用该算法对文本数据进行聚类分析,展示了轮廓系数法和手肘法检验确定最佳聚类数目的方法。
747 0
|
自然语言处理 语音技术 Docker
开源上新|FunASR离线文件转写软件包3.0
开源上新|FunASR离线文件转写软件包3.0
|
数据安全/隐私保护 iOS开发
换新 iPhone 怎么把数据从旧 iPhone 转移过来?
如何使用iPhone迁移数据?新iPhone开机后放老iPhone旁,确保两者运行iOS 12.4或更高版本,开启蓝牙。在老iPhone上看到“快速开始”后,用新iPhone扫描老iPhone上的动画并手动验证(如果需要)。输入老iPhone密码,设置面容ID/触控ID,选择“从iPhone传输”以迁移数据。保持两设备相邻充电直至数据迁移完成。可选迁移Apple Watch数据。数据迁移时间取决于多种因素。此外,也可通过无线或使用闪电转USB转换器有线连接进行迁移。完成后,还需完成一些设置步骤,如邮件、通知、Apple Pay等的配置。
961 0
|
Java 程序员
Java 异步编程:概念、优势与实战示例
【4月更文挑战第27天】在现代软件开发中,异步编程是一种重要的编程范式,特别适用于处理长时间运行的任务,如网络通信、文件操作等。
502 0