开放下载!8篇入选顶级语音领域会议的阿里论文抢先看

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。


1.Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

论文导读:采用先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,结合最近流行的深度残差网络(ResNets),进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

点击下载论文

2.Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks

论文导读:基于对抗生成网络(GAN)的StarGAN被引入到语音转换的问题中,利用其多对多的域映射性能和无需并行数据的训练性能,仅使用语音特征和域信息作为输入,获得了较成功的多对多不同说话者之间的语音转换实验结果。本文在上述StarGAN-VC方法的基础上,通过添加残差训练机制,提出了一种快速学习训练框架,我们的方法称为Res-StarGAN- VC,其主要思想是基于转换过程中的源语音特征和目标语音特征之间的语言内容共享,通过添加输入到输出的快捷连接方式(shortcut connections)来实现残差映射。

点击下载论文

3.Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number

论文导读:利用Co-Training的思想,同时训练两个说话人空间,当两个说话人空间相对独立时,在说话人空间A中呈现高置信度的数据样本,当投影到说话人空间B中时,其分布会呈一定随机性。因此,这些样本对说话人空间B的训练更有帮助。反之亦然。两个说话人空间的在训练过程中的相互监督,可减少误标数据带来的影响,从而达到降低condition number的目的。

点击下载论文

4.Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

论文导读:本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。

点击下载论文

5.Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data

论文导读:在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。

点击下载论文

6.Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

论文导读:目前CTC声学模型通过联合N-gram语言模型进行解码。从而导致很多同音替换错误依旧没法解码。针对这个问题我们提出了一个基于Transformer的后处理纠错模型,可以有效的纠正大量识别的替换错误。在一个2万小时中文数据库上的实验表明,通过引入纠错模型,我们可以获得3.41%的字错误率,相比于基线的CTC系统可以获得相对22.9%的性能提升。

点击下载论文

7.Towards Language-Universal Mandarin-English Speech Recognition

论文导读:如何训练一个通用的中英文语音识别系统,可以不需要语种先验信息的前提下可以同时识别中文、英文、以及中英文混读是一个研究难点。针对这个问题,本次INTERSPEECH论文,我们提出一种新颖的bilingual-AM (acoustic model)。

点击下载论文

8.Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

论文导读:在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

点击下载论文





阿里云开发者社区整理

相关文章
|
2月前
|
人工智能
解决方案评测|10分钟构建AI客服并应用到聊天系统中获奖名单公布
10分钟构建AI客服并应用到聊天系统中获奖名单公布!!!
|
3月前
|
人工智能 Anolis
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会
英特尔分论坛将依托英特尔云到端的全面产品组合,围绕至强可扩展处理器、AI 加速器、以及 oneAPI、OpenVINO 等软硬件技术展开探讨。
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会
|
3月前
|
人工智能 Linux Anolis
|
6月前
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
12月前
|
人工智能 数据可视化 物联网
vivo AI全球研究院 BlueLM-7B系列开源!魔搭社区最佳实践教程来了!
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,本次发布包含 7B 基础模型、7B 对话模型,4bits量化的7B对话模型,支持 32K 的长文本基础模型和对话模型。
|
人工智能 自然语言处理 开发工具
魔搭社区首届AI编程马拉松大赛,启动报名
魔搭社区首届AI编程马拉松大赛,启动报名
222 0
|
机器学习/深度学习 达摩院 算法
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
148 0
|
数据安全/隐私保护
直播预告 | 对话全球顶级主题娱乐大师,探索IP商业化运营密码
编者按: 《阿凡达》作为全球有史以来票房最高的电影一直备受人们关注。5月初,迪士尼发布了2022年压轴大作《阿凡达:水之道》的首支预告片和先导海报,再度引爆全球科幻风,娱乐市场的未来依旧令人期待。 阿里云研究院与长江商学院再度强强联合,特别邀请了四位全球娱乐领域的重磅嘉宾来到线上直播间,分享后疫情时代的主题娱乐发展机遇和挑战。在当下影院主题公园等娱乐场集体“沉寂”时期,和大家一同储备打造“快乐”的知识武器。
177 0
|
机器学习/深度学习 人工智能 搜索推荐
2022 阿里灵杰AI开发者峰会内容抢先看!
阿里灵杰AI开发者峰会将于2022年12月22日14:00准时开启线上直播。
2022 阿里灵杰AI开发者峰会内容抢先看!
|
人工智能 达摩院
【报名】2022年第17届全国人机语音通讯学术会议--魔搭专场技术沙龙
达摩院联合CCF开源发展委员会共同发起了国内首个中文AI模型开源社区--魔搭ModelScope,汇集了当前业界各类模态的领先模型,以及丰富的数据集,并吸引各大科研机构和科技公司来分享共建这一社区,方便科研工作者做横向的比较和研究,并共同推进技术创新和原创性模型研究的发展。 本届全国人机语音通讯学术会议——魔搭专场(线上)技术沙龙,将邀请魔搭ModelScope社区语音语义AI的贡献者和合作伙伴一同进行模型解读演示以及如何快速训练定制各类语音模型。
145 0