语音顶会Interspeech 论文解读|Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robus

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,本文为Shengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma的入选论文

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为Shengkui Zhao, Chongjia Ni, Rong Tong, Bin Ma的论文《Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition》

点击下载论文

文章解读

自动语音识别系统(ASR)在实际生活中有着广泛的应用场景,不过通常由于周遭环境的噪声和混响的影响,自动语音识别的结果出现错误和不稳定的情况。提高自动语音识别系统的鲁棒性是推广其应用的一个关键问题。为了解决这个问题,增加语音增强模块和模型适应训练已经研究了很长时间。最近,在统一建模框架中利用同时训练降噪和语音识别的多任务联合学习方案显示出令人鼓舞的进展,不过目前模型训练仍高度依赖于成对的干净和噪声数据。为了克服这一限制,研究者开始引进对抗性生成网络(GAN)和对抗性训练方法到声学模型的训练中,由于无需复杂的前端设计和配对训练数据,大大简化了模型训练过程和要求。尽管对抗性生成网络在计算机视觉领域发展迅速,但目前只引进了常规对抗性生成网络和进行了有限的模型训练实验,而且常规对抗性生成网络存在模式崩溃缺陷常常导致训练失败问题。
在这项工作中,我们采用更先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,另外,结合最近流行的深度残差网络(ResNets),我们进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

7-1.png

基于CHiME-4的单声道自动语音识别的实验结果表明,与最先进的联合学习方法相比(B),我们提出的方法通过实现更低的字错误率(WER)显着提高了自动语音识别系统的噪声鲁棒性。

7-2.png

基于循环一致性对抗性生成网络,我们提出的多任务多网络联合学习方案较好的解决了模式崩溃问题。

7-3.png

文章摘要

**Robustness of automatic speech recognition (ASR) systems is a critical issue due to noise and reverberations. Speech enhancement and model adaptation have been studied for long time to address this issue. Recently, the developments of multitask joint-learning scheme that addresses noise reduction and ASR criteria in a unified modeling framework show promising improvements, but the model training highly relies on paired clean-noisy data. To overcome this limit, the generative adversarial networks (GANs) and the adversarial training method are deployed, which have greatly simplified the model training process without the requirements of complex front-end design and paired training data. Despite the fast developments of GANs for computer visions, only regular GANs have been adopted for robust ASR. In this work, we adopt a more advanced cycleconsistency GAN (CycleGAN) to address the training failure problem due to mode collapse of regular GANs. Using deep residual networks (ResNets), we further expand the multi-task scheme to a multi-task multi-network joint-learning scheme for more robust noise reduction and model adaptation. Experiment results on CHiME-4 show that our proposed approach significantly improves the noise robustness of the ASR system by achieving much lower word error rates (WERs) than the stateof-the-art joint-learning approaches.
Index Terms: Robust speech recognition, convolutional neural
networks, acoustic model, generative adversarial networks

阿里云开发者社区整理

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9月前
|
机器学习/深度学习 数据采集 人工智能
几周速通大模型实习,你需要做什么?
这是一篇关于转行进入大模型AI应用开发领域的经验分享。作者凭借自身两年开发经验成功转型,并详细列出学习路线:从Python语言、框架(如LangChain、Flask、FastAPI)到NLP、LLM微调,涉及强化学习、数据清洗、RAG调优等技术。他还提到论文复现、量化模型的重要性,以及高学历和顶会论文对进入顶级公司(如九坤、幻方)的帮助。文中提及面试经历和技术挑战,强调技术深度与努力的必要性。最后,作者鼓励读者坚持学习,并计划全平台发布教程。
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
3615 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
机器学习/深度学习 网络协议 PyTorch
【文献学习】DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
本文介绍了一种新的深度复数卷积递归网络(DCCRN),用于处理语音增强问题,特别是针对低模型复杂度的实时处理。
1038 5
|
关系型数据库 MySQL Docker
docker环境下mysql镜像启动后权限更改问题的解决
在Docker环境下运行MySQL容器时,权限问题是一个常见的困扰。通过正确设置目录和文件的权限,可以确保MySQL容器顺利启动并正常运行。本文提供了多种解决方案,包括在主机上设置正确的权限、使用Dockerfile和Docker Compose进行配置、在容器启动后手动更改权限以及使用 `init`脚本自动更改权限。根据实际情况选择合适的方法,可以有效解决MySQL容器启动后的权限问题。希望本文对您在Docker环境下运行MySQL容器有所帮助。
2468 1
|
Ubuntu Linux Windows
两种Ubuntu和Windows互相共享文件夹的方法
两种Ubuntu和Windows互相共享文件夹的方法
|
数据采集 监控 供应链
食品制造行业MES系统解决方案 
介绍食品制造业如何使用mes
|
SQL 存储 监控
SQLServer事务复制延迟优化之并行(多线程)复制
【9月更文挑战第12天】在SQL Server中,事务复制延迟会影响数据同步性。并行复制可通过多线程处理优化这一问题,提高复制效率。主要优化方法包括:配置分发代理参数、优化网络带宽、调整系统资源、优化数据库设计及定期监控维护。合理实施这些措施可提升数据同步的及时性和可靠性。
542 0
|
域名解析 Ubuntu Perl
Ubuntu 快速更换阿里源
本文主要给大家讲解如何为Ubuntu更换阿里源,通过以下四个步骤即可快速实现换源。
62435 3
Ubuntu 快速更换阿里源
|
供应链 JavaScript 前端开发
使用Django和Vue实现电子商务网站的后端和前端
【4月更文挑战第10天】本文介绍了使用Django和Vue构建电子商务网站的后端与前端方法。Django作为Python的Web框架负责后端,其模型-视图-控制器设计简化了商品管理、购物车和订单处理。Vue.js用于前端,提供数据驱动和组件化的用户界面。通过定义Django模型和视图处理请求,结合Vue组件展示商品和管理购物车,开发者可构建交互性强的电商网站。虽然实际开发涉及更多细节,但本文为入门提供了基础指导。
565 2

热门文章

最新文章