ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

简介: ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。

/ICASSP收录论文/

CPT: Cross-Modal Prefix-Tuning for Speech-To-Text Translation

/作者/

马煜坤、Trung Hieu Nguyen、马斌

|| 背景

预训练语言模型在文本上的应用非常广泛。尤其是近些年,多语言的文本预训练模型被应用到翻译任务上,并取得了较大的提升。相对于文本翻译,语音翻译任务因为涉及到语音、源语言文本和目标语言文本的三元组, 所以往往需要花费更多资金和时间来收集数据。为了解决这个问题,我们可以通过适配预训练多语言文本模型来减少对源语言文本和目标语言文本的依赖不过,适配预训练多语言文本模型需要解决两个问题:1)如何协调与语音编码器(输出语音表征)之间的联合适配从而保证对语音的鲁棒性;2)如何保证适配的效率,保持多语言文本预训练模型可以保持多语言特性。


|| 方法

我们提出利用最近被应用到 NLP 领域的 prefix tuning 的思想,通过一个跨模态的 prefix network 对多语言文本预训练模型的 encoder 和 decoder 进行适配我们的网络框架包括:1)ASR Encoder&Decoder;2)MT encoder和decoder;3)Prefix Network 用于产生插入到 MT encoder 和 MT decoder 中的 prefix。在训练极端,我们只对 prefix network 部分的参数进行学习。这样一方面保证了文本预训练模型所编码知识不会流失,提升了训练中的参数调整的效率,减少了可训练的参数空间。另一方面,prefix network 基于语音 encoder 输出的特征,这样可以增加对语音特征的鲁棒性。prefix 的生成基于 ASR encoder 的输出也可以在某种程度上通过语音的输入对 MT 模型进行适配。

image.gifimage.png

|| 实验结果

我们在最近放出的 Multilingual Tedx 数据集上测试了我们提出的跨模态 prefix. 如下表所示,我们主要试验了7个方向(es-en, es-fr, es-it, es-pt, fr-es, fr-en, fr-pt)。从下表可以看出,相对于 cascaded 模型,我们的方法在所有的 direction 上都有较大提升。同时,我们相对于单纯加入 prefix 到文本模型相比,我们在 6 个方向上都有相当程度的提升。image.gif

image.png

我们还测试了我们提出方法的鲁棒性,我们发现我们的方法对于随机的 masking 有更好的容错能力。同时发现,我们的方法更依赖于文本预训练模型的固有知识(例如,源语言和目标语言的ID)。相比之下 finetuning 模型则更加 task-specifc。

image.png

image.gif我们接下来进行了 ablation study。我么可以看出对于某些翻译方向来说,仅仅在输入层加入 prefix 就已经足够了,逐层加入 prefix 带来的好处相对比较有限。

image.png

|| Future Work

通过这个研究,我们可以看出在现有模型中加入 prefix(或许其他位置也有相似效果)可以改变当前模型的输出。我们可以探索这种插入的方法对于预训练表征的影响,从而在多语言或者多模态模型中更有效地控制特征的学习。

目录
相关文章
|
10月前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
919 3
|
网络安全 开发工具 git
拉取 gitee 代码,配置SSH,Please make sure you have the correct access rights
拉取 gitee 代码,配置SSH,Please make sure you have the correct access rights
414 1
|
Java
Java源文件声明规则详解
Java源文件的声明规则是编写清晰、可读且符合语法规范的Java程序的基础。这些规则包括文件名必须与公共类名相同、包声明位于文件顶部、导入声明紧跟其后、类声明需明确访问级别,并允许使用注释增强代码可读性。一个源文件可包含多个类,但只能有一个公共类。遵循这些规则有助于提升代码质量和维护性。
423 28
WK
|
机器学习/深度学习 算法
神经网络的反向传播是什么
反向传播(Backpropagation)是用于训练神经网络的一种关键算法,其目标是通过计算损失函数关于网络参数的梯度来优化这些参数,从而提升网络性能。该算法包括前向传播和反向传播两个阶段:前者计算预测结果与损失值,后者利用链式法则逐层计算梯度以更新权重和偏置。作为深度学习中最常用的优化方法之一,反向传播广泛应用于多种神经网络模型中,通过不断迭代改进模型的预测准确性和泛化能力。
WK
934 5
|
存储 缓存 数据挖掘
数据库冗余
【7月更文挑战第28天】数据库冗余
903 8
|
存储 监控 安全
在自动化测试环境中,如何确保测试数据的安全性和隐私性
在自动化测试环境中,如何确保测试数据的安全性和隐私性
612 0
|
数据采集 搜索推荐 算法
使用Java编写高效的搜索引擎算法
使用Java编写高效的搜索引擎算法
|
移动开发 前端开发 Java
前后端分离架构模式讨论:要前后端分离,不要前后端分裂
前后端分离架构模式讨论:要前后端分离,不要前后端分裂
648 11
|
机器学习/深度学习 算法 数据挖掘
JCR一区5.4分|经典~非肿瘤机器学习筛选生物标志物+qPCR
本文介绍了一项使用机器学习算法识别间变性甲状腺癌(ATC)新型生物标志物和免疫浸润特征的研究。该研究发表在2023年9月的《Journal of Endocrinological Investigation》上,IF为5.4。通过对GEO数据库中的RNA测序数据进行分析,研究人员鉴定出425个差异表达基因,并利用LASSO和SVM-RFE算法确定了4个ATC特征基因(ADM、PXDN、MMP1和TFF3)。这些基因在诊断、药物敏感性和免疫微环境中具有潜在价值,可能成为ATC诊断和治疗的生物标志物。
726 0
|
存储 XML 缓存
Spring Cache-缓存概述及使用
Spring Cache-缓存概述及使用
380 0

热门文章

最新文章