语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。
现有的语音识别系统一般对单语种支持比较好,例如纯中文或纯英文语音识别系统。考虑到中英文混读的现象在日常交流中愈发频繁,比如:“借你的 ipad 给我看下 paper”。当前业内较为常见的处理方式是针对通用的中文语音识别来扩展兼顾中英文混读的识别系统。同时,如何高精度识别中英混读的语音成为热门的研究课题之一。2019年,达摩院语音实验室在基于 DFSMN-CTC-sMBR 的语音识别基础框架下,提出了 Bilingual-AM [INTERSPECH 2019] 的框架,有效提升了中英混读的识别效果。相关论文可参考:http://lxie.nwpu-aslp.org/papers/2019Interspeech_ZSL.pdf今年,我们基于最新的端到端语音识别框架,在中英文混读语音识别系统上进一步探索了中英自由说语音识别系统,通过借鉴混合专家系统 (Mixture of Experts, MOE) 的思想,在语音识别系统里面内嵌中、英文专家模块,通过这样的方式,让一套语音识别系统无需切换就能支持中文、英文和中英混读的语音识别。在此基础上,我们在ASR模型中添加GST模块来提取语音的style embedding,从而使模型能自适应到口音、说话人等风格信息,进一步提升模型的效果。在通用中文、英文单语识别场景下 ,中英自由说系统识别效果可以和单独优化的中英文混读、英文识别系统相当;在中英文混读场景下,中英自由说系统识别效果优于中英文混读系统。
▎多语种混合语音识别技术简介
多语种混合语音识别系统的研究由来已久,在 GMM-HMM 和 DNN-HMM 为代表的混合语音识别框架下,两个主流的做法是:
1. 通用建模单元 [T. Schultz 1997;B. Li 2018]:将不同语种的建模单元映射成同一套建模单元体系
2. 多语种神经网络 [G. Heigold 2013;S. Tong 2017]:不同的语种共享一个隐层神经网络,各自有独立的一个输出分类层
这些方法通过参数共享,挖掘多语种的共同表征,对于低资源多语种识别可以起到比较好的提升作用。但是也存在一个问题:需要语种先验信息来指导模型的训练和解码。所以这类系统通常需要前置一个语种分类器。如何处理混杂语音的识别对于这类系统依然是一个挑战。
近些年,随着端到端语音识别系统的推广应用,构建高精度的不需要语种先验信息的多语种语音识别系统开始从研究走向实用。
以下我们对一些近期的中英混杂语音识别系统进行回顾:
论文 [Zhang S 2019] 中提出一种基于 Bilingual-DFSMN 的中英文语音识别系统。如下图1所示,Bilingual-DFSMN 采用单语种语料预先训练好基于 DFSMN-CTC-sMBR 的英文语音识别系统和中文语音识别系统初始化,然后添加一个混合建模单元(Character-subwords)的输出层,进一步采用中英文语料进行训练。单独优化的中文和英文子网络,可以有效利用单语种语料使得模型具有中英文区分性。Bilingual-DFSMN 可以在不需要语种信息的前提下,既保证纯中文和纯英文相对于单语系统的识别性能基本不降,也大幅度提升中英混杂场景下的识别性能。
图1. 基于Bilingual-DFSMN的中英文语音识别系统框图 [图片来源于Zhang S 2019]
论文 [Zhou X 2020] 中基于 Transformer 端到端语音识别框架,提出了 Multi-encoder-decoder Transformer 的中英文混杂语音识别系统。首先利用单独训练的中文和英文 encoder 组成 bi-encoder,然后 decoder 中的 cross-ettention 分别和 bi-encoder 中的中文和英文子网络计算得到 attention 输出,通过这种方式实现在端到端框架下不需要语种先验信息识别中英文混杂的语音。
图2. 基于Multi-encoder-decoder Transformer的中英混杂语音识别系统 [图片来源于Zhou X 2020]
论文 [Lu Y 2020] 提出另一种利用 bi-encoder 来构建中英文端到端识别的框架。不同于论文 [Zhou X 2020] 中需要两个 cross-attention 来访问 bi-encoder 的子网络,然后再相加得到输出。论文 [Lu Y 2020] 中利用了最新的混合专家系统 (Mixture of Experts,MOE) 的思想,通过门控网络来对 bi-encoder 的输出进行线性加权得到混合的输出,从而 decoder 可以保持和标准的 transformer decoder 一致的操作。
图3. 基于Bi-encoder和Mixture-of-experts的中英混杂语音识别系统 [图片来源于Lu Y 2020]
▎中英自由说语音识别系统
对于工业落地的中英自由说模型,不仅需要考虑识别效果,同时也需要考虑计算效率。基于此,我们借鉴了之前有关中英混杂语音识别的研究工作, 进一步构建了如下图4所示的中英自由说模型。模型包含三个主要组成部分:ASR-Encoder,Reference-Encoder 和 ASR-Decoder。其中 ASR-Encoder 采用 Bi-encoder-MOE 结构 [Lu Y 2020]。
考虑到实际使用的计算量问题,我们将 Bi-encoder 的大部分参数进行了共享,如图4(右) 所示。关于 Encoder 网络结构,可以采用 Transformer, Conformerd 等,我们沿用了之前所提出的 SAN-M[Gao Z 2020] 模型。
Reference-Encoder 的主要作用是对口音、说话人等个性化信息进行建模和嵌入到语音识别系统中。具体的,Reference-Encoder 通过接收原始的声学特征得到 Reference-embedding,然后通过 GST[Wang Y 2018] 模块转化得到个性化编码向量来增强 ASR-Decoder。
关于 ASR-Decoder,除了采用标准的语音识别相关的目标函数以外,我们会添加语种相关的目标函数 [Shinji Watanabe 2017] 来辅助模型更好的区分不同语种的语音。
图四. 中英自由说语音识别模型结构(图左)和ASR-Encoder结构(图右)
▎效果验证
我们在大概2万小时中文和1.9万小时英文的工业大数据上训练和验证了中英自由说模型的效果。
模型 |
中文测试集 |
英文测试集 |
中英混杂测试集 |
中文模型 |
8.76 |
22.01 |
|
英文模型 |
10.97 |
||
中英文混合模型 |
9.96 |
11.44 |
16.05 |
中英自由说模型 |
8.69 |
10.01 |
13.87 |
表一. 中英自由说模型和baseline模型实验对比
模型 |
中文测试集 |
英文测试集 |
中英混杂测试集 |
Mandarin-English Mixed Baseline |
9.96 |
11.44 |
16.05 |
Language ID MTL [Shuai Zhang, 2021] |
11.23 |
13.44 | 18.12 |
Bi-encoder-MOE [Lu Y 2020] |
9.57 |
11.31 | 15.29 |
Bi-encoder bi-attention [Zhou X 2020] |
9.23 |
11.01 | 15.12 |
UGA + H-ULSAE (This work) |
8.69 |
10.01 |
13.87 |
表二. 中英自由说模型和其他中英混合模型实验对比
- 表一中,中文模型使用中文、中英混杂数据训练,英文模型只使用英文数据训练,中英文混合、中英自由说模型使用中文、英文、中英混杂数据训练。从实验结果上看,在中文、英文单语测试集上,中英自由说模型和中文、英文单语种模型效果相当;在中英混杂测试集上,中英自由说模型效果优于中文、中英文混合模型。
- 表二中,“UGA + H-ULSAE” 就是本文中所提到的中英自由说模型。在相同训练数据上,我们对比了中英自由说模型和 LID-MTL 模型 [Shuai Z 2021]、Bi-encode-MOE 模型 [Lu Y 2020]、Bi-encoder & Bi-decoder 模型 [Zhou X 2020] 的效果,从实验结果上看,中英自由说模型在中文、英文、中英混杂测试集上都有一定的优势。
,时长02:15
( ▲中英文自由说效果演示 )
▎Future work
目前,中英自由说技术已应用于达摩院产品听悟中,本月即将在阿里云智能语音交互产品中上线。
未来,我们将更多的关注多语种语音识别技术在低资源场景下的应用。我们将探索迁移学习、无监督预训练等方法在低资源语音识别上的应用,利用海量的高资源语种标注数据和低资源语种无标注数据,进一步提升低资源场景下的语音识别准确率。
参考文献:
[1] T. Schultz and A. Waibel, “Fast bootstrapping of LVCSR systems with multilingual phoneme sets,” in Fifth European Conference on Speech Communication and Technology, 1997.[2] B. Li, Y. Zhang, T. Sainath, Y. Wu, and W. Chan, “Bytes are all you need: End-to-end multilingual speech recognition and synthesis with bytes,” arXiv preprint arXiv: 1811.09021, 2018.[3] G. Heigold, V. Vanhoucke, A. Senior, P. Nguyen, M. Ranzato, M. Devin, and J. Dean, “Multilingual acoustic models using distributed deep neural networks,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013, pp. 8619–8623.[4] S. Tong, P. N. Garner, and H. Bourlard, “An investigation of deep neural networks for multilingual speech recognition training and adaptation,” in Annual Conference of the International Speech Communication Association. IEEE, 2017.[5] Shinji Watanabe, Takaaki Hori, and John R Hershey, “Language independent end-to-end architecture for joint language identification and speech recognition,” in 2017 IEEE Automatic Speech Recognition and Understand-ing Workshop (ASRU). IEEE, 2017, pp. 265–271.[6] Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer inend-to-end speech synthesis[C]//International Conference on Machine Learning. PMLR, 2018: 5180-5189.[7] Zhang S, Liu Y, Lei M, et al. Towards Language-Universal Mandarin English Speech Recognition[C]// INTERSPEECH. 2019: 2170-2174.[8] Zhou X, Yılmaz E, Long Y, et al. Multi-encoder-decoder transformer for code-switching speech recognition [J]. arXiv preprint arXiv:2006.10414, 2020.[9] Lu Y, Huang M, Li H, et al. Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts[C]//Interspeech. 2020: 4766-4770.[10] GaoZ, Zhang S, Lei M, et al. San-m: Memory equipped self-attention for end-to-end speech recognition[J]. arXiv preprint arXiv:2006.01713, 2020.
[11] Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, and Ye Bai, “Rnn-transducer with language bias for end-to-end mandarin-english code-switching speech recognition,” in 2021 12th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2021, pp. 1–5.