语音顶会Interspeech 论文解读|Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为 Nanyang Technological University等学校联合作者的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为 Nanyang Technological University等学校联合作者的入选论文《Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data》

点击下载论文

文章解读

Code-switching (CS) 是在一个对话中同时使用多于一种语言。它对许多语音和语言处理的应用程序构成非常严重的挑战。最近,端到端的CS语音识别(E2E-CS-ASR)取得了令人印象深刻的进展,获得了越来越多的关注,但这些改进主要是针对有足够多的CS语音和文本数据的条件下来实现的。 对于绝大多数语言来说,获得大量的CS数据仍然是一个重大的挑战。在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。
由于缺乏CS训练数据,E2E-CS-ASR模型很难学习到跨语言之间转换关系,因此单语言的输出token embedding将彼此分离。图1 (a) 给出了观察到的这种现象。也就是不同语言的输出token embedding的分布是不同的,是彼此分开的,这就不利于E2E-CS-ASR模型在不同语言之间切换。

image.png

图 1. 中文和英文输出token embedding分布的PCA可视化

为了解决这个问题,我们提出对输出token embedding加以额外的约束,使其在不同语言上的分布相似。具体来说,我们使用Jensen-Shannon散度和余弦距离进行限制。公式(1)和公式(2)分别给出了Jensen-Shannon散度和余弦距离,公式(3)和公式(4)分别给出了结合Jensen-Shannon散度限制和余弦距离限制的优化目标损失函数。
L_JSD=tr(∑_1^(-1) ∑_2+∑_1 ∑_2^(-1) )+(μ_1-μ_2 )^T (∑_1^(-1)+∑_2^(-1) )(μ_1-μ_2 )-2z (1)
L_CD=1-(C_1∙C_2)/‖C_1 ‖‖C_2 ‖ (2)
L_MTL=λL_CTC+(1-λ)(αL_ATT+(1-α)L_JSD ) (3)
L_MTL=λL_CTC+(1-λ)(αL_ATT+(1-α)L_CD ) (4)

假设每种单一语言的输出token embedding的分布服从正态分布, 且L_1~Norm(μ_1,∑_1 ),L_2~Norm(μ_2,∑_2 )。公式(1)~公式(4)中,z是维数,c_1,c_2分别是语言L_1和语言L_2的输出token embedding的质心。L_ATT是基于attention decoder的损失函数,L_CTC是CTC decoder的损失函数,L_MTL是多任务学习的损失函数。
Jensen-Shannon散度限制将强迫每个单语言的输出token embedding拥有相似的分布,而余弦距离限制可以使两个分布的质心彼此接近。 此外,强加的约束将充当正规化项以防止模型训练的过度拟合。在中英CS的语料库 SEAME上的实验结果表明,提出的方法是有效的,有绝对4.5% CS语音识别混合错误率的下降。
通过结合不同限制,单一语言的输出token embedding的空间分布也有了明显的变化,如图1 (b)~(d) 所示。CD限制(即,余弦距离限制)和JSD限制(Jensen-Shannon散度限制)的结合使得单语输出token embedding分布更加相似。正是这种变化,使得基于两种单语训练的E2E-CS-ASR在CS测试集上有混合错误率的下降。

文章摘要

In spite of recent progress in code-switching speech recognition, the lack of code-switch data still remains a major challenge. Different from the previous works which highly rely on the availability of code-switch data, we aim to build an endto-end code-switching automatic speech recognition (E2E-CSASR) system using only monolingual data. While greatly mitigating the code-switch data scarcity problem, the E2E-CS-ASR will fail to learn language switch-points due to the absence of cross-lingual signal. Indeed, we investigate the E2E-CS-ASR model and found that the embedding feature representations of output tokens of code-switching languages are concentrated in disjoint clusters. We hypothesize that a gap between these clusters hinders the E2E-CS-ASR from switching between languages, leading to sub-optimal performance. To address this issue, we propose embedding feature matching approaches based on Jensen-Shannon divergence and cosine distance constraints.
The proposed constraints will act as a cross-lingual signal enforcing the disjoint clusters to be similar. The experiment results performed on Mandarin-English code-switching language pair from the SEAME corpus demonstrate high effectiveness of
the proposed method.
Index Terms: code-mixing, code-switching, feature matching,
speech recognition, end-to-end

阿里云开发者社区整理

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
【论文精读】ACL 2022:Graph Pre-training for AMR Parsing and Generation
|
23天前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
28 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
3月前
|
机器学习/深度学习 人工智能 算法
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
本文介绍了一种新型的尺度无标度高聚类回声状态网络(SHESN)模型,该模型通过模拟生物神经系统的特性,如小世界现象和无标度分布,显著提高了逼近复杂非线性动力学系统的能力,并在Mackey-Glass动态系统和激光时间序列预测等问题上展示了其优越的性能。
28 1
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
|
3月前
|
机器学习/深度学习 数据可视化 语音技术
【文献学习】Deep Learning for Audio Signal Processing
关于深度学习在音频信号处理领域应用的综述,涵盖了不同类型的深度学习模型及其在音频识别和合成任务中的应用。
55 3
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
93 0
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
146 0
|
机器学习/深度学习 人工智能 自然语言处理
NAACL2021 AMR-IE: Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint IE
富语义解析的任务,如抽象语义表示(AMR),与信息抽取(IE)具有相似的目标,即将自然语言文本转换为结构化的语义表示。为了利用这种相似性
262 0
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: Role-interactive Multi-event Head Attention Network for DEE
将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。
70 0
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
394 0
|
编解码 自动驾驶 测试技术
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection
328 0
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection