开放下载!8篇入选顶级语音领域会议的阿里论文抢先看

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。


1.Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

论文导读:采用先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,结合最近流行的深度残差网络(ResNets),进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

点击下载论文

2.Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks

论文导读:基于对抗生成网络(GAN)的StarGAN被引入到语音转换的问题中,利用其多对多的域映射性能和无需并行数据的训练性能,仅使用语音特征和域信息作为输入,获得了较成功的多对多不同说话者之间的语音转换实验结果。本文在上述StarGAN-VC方法的基础上,通过添加残差训练机制,提出了一种快速学习训练框架,我们的方法称为Res-StarGAN- VC,其主要思想是基于转换过程中的源语音特征和目标语音特征之间的语言内容共享,通过添加输入到输出的快捷连接方式(shortcut connections)来实现残差映射。

点击下载论文

3.Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number

论文导读:利用Co-Training的思想,同时训练两个说话人空间,当两个说话人空间相对独立时,在说话人空间A中呈现高置信度的数据样本,当投影到说话人空间B中时,其分布会呈一定随机性。因此,这些样本对说话人空间B的训练更有帮助。反之亦然。两个说话人空间的在训练过程中的相互监督,可减少误标数据带来的影响,从而达到降低condition number的目的。

点击下载论文

4.Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

论文导读:本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。

点击下载论文

5.Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data

论文导读:在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。

点击下载论文

6.Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

论文导读:目前CTC声学模型通过联合N-gram语言模型进行解码。从而导致很多同音替换错误依旧没法解码。针对这个问题我们提出了一个基于Transformer的后处理纠错模型,可以有效的纠正大量识别的替换错误。在一个2万小时中文数据库上的实验表明,通过引入纠错模型,我们可以获得3.41%的字错误率,相比于基线的CTC系统可以获得相对22.9%的性能提升。

点击下载论文

7.Towards Language-Universal Mandarin-English Speech Recognition

论文导读:如何训练一个通用的中英文语音识别系统,可以不需要语种先验信息的前提下可以同时识别中文、英文、以及中英文混读是一个研究难点。针对这个问题,本次INTERSPEECH论文,我们提出一种新颖的bilingual-AM (acoustic model)。

点击下载论文

8.Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

论文导读:在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

点击下载论文





阿里云开发者社区整理

相关文章
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
JavaScript
Vue报错:This dependency was not found: vuex in ./node_modules/babel-loader/lib
Vue报错:This dependency was not found: vuex in ./node_modules/babel-loader/lib
1550 0
Vue报错:This dependency was not found: vuex in ./node_modules/babel-loader/lib
|
Java 应用服务中间件 持续交付
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
本文是采用Java配置类的方式配置微服务的Nacos服务注册,并动态的配置spring.cloud.discovery.ip属性以打到微服务内网穿透注册至Nacos注册中心。
5634 0
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen3,开源!
Qwen3正式发布并全部开源啦!
5048 50
|
机器学习/深度学习 人工智能 运维
CodeFuse团队2024年10篇论文总结
CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。
608 11
|
应用服务中间件 测试技术 nginx
金丝雀发布(灰度发布)介绍 及 声明式管理方法简介
金丝雀发布(灰度发布)介绍 及 声明式管理方法简介
|
Python
Jetson 错误(一):Illegal instruction (core dumped)解决
在NVIDIA Jetson平台上运行Python时遇到"Illegal instruction (core dumped)"错误的解决方法,包括设置环境变量和确保软件包版本兼容性。
1429 0
|
Kubernetes 监控 Java
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
3537 1
|
移动开发 JavaScript 小程序
uView Tooltip 长按提示
uView Tooltip 长按提示
593 3
|
存储 机器学习/深度学习 人工智能
阿里云大数据AI产品年度盘点
阿里云大数据AI产品年度盘点,涵盖2022技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据AI方面最新动态。
阿里云大数据AI产品年度盘点

热门文章

最新文章