黄学东:微软TTS,第一款实时神经网络语音合成服务

简介: 就此,我们采访了微软语音、自然语言与机器翻译的技术负责人黄学东,他向我们展示了一系列 TTS 生成的「真假难辨」的语音样例,并分享了微软在 TTS 一途上的经历与考量。

一个月之前,微软发布了基于深度神经网络的文本到语音(text-to-speech,TTS)系统,并且做为 Azure 认知服务中的一项,提供面向客户的预览版本。


就此,我们采访了微软语音、自然语言与机器翻译的技术负责人黄学东,他向我们展示了一系列 TTS 生成的「真假难辨」的语音样例,并分享了微软在 TTS 一途上的经历与考量。


下面的视频里包括了三段录音与三段合成音,你能分辨出机器与人声的区别吗?


1638251017(1).png点击查看原视频链接


机器之心:微软是从什么时候开始提供 TTS 服务的?TTS 与微软语音系统的关系是什么?


事实上,TTS 是微软语音 API(Microsoft Speech API, SAPI)进入大众视野的契机。


1995 年,我作为项目负责人推出 SAPI 1.0 的目标是让人机互动更加自然。而研发 TTS(文本转语音)技术的初衷是为了给残障人士提供更多「无障碍功能」(accessibility)。1996 年,文本转语音功能被纳入 Microsoft NT 4.0 中,那是 SAPI 第一次整合进 Windows,进入大众视野。


机器之心:在神经网络用于 TTS 之前,常用的方法有哪些?


语音合成经历了许多次技术与范式的转移。


第一代 TTS 技术采用的是由麻省理工学院的教授 Dennis Klatt 提出的共振峰合成法(Formant synthesis)。这样的技术生成的语音能够被人们所理解,但是听上去特别机械。已逝的理论物理学巨匠 Stephen Hawking 在失去发声能力之后,就在使用这一套技术对外交流。


这个模型非常非常小,需要的计算资源也非常少,甚至在当时的德州仪器公司(TI)开发的很多玩具中,都有简单的语音合成功能。


第二个阶段是拼接合成法(Concatenation synthesis),把语音的每个单元存下来,拼接到一起。串联法的交接部分会有很多问题,这时候就需要进行很多的处理。从最早的直接对接、平滑(smoothing)到后来使用基于统计的参数合成的隐马尔科夫方法(HMM)进行处理。


选择用 HMM 是因为它在语音识别领域获得了非常不错的结果,因此在语音大领域内都流行了起来。


第三个阶段就是利用深度神经网络了,这是一次飞跃式的进步。谷歌的 WaveNet、Tacotron,百度的 ClariNet,都是基于深度神经网络的 TTS [BD4] 系统,在学术上都取得了一定的突破,但是工程化方面仍然没有一个实时的系统。

 

机器之心:能否介绍一下微软的深度神经网络 TTS?


微软的深度神经网络 TTS 系统由两部分组成,第一部分是将文本转换成包含语音信息(phonetic)和韵律信息(prosodic)的声学参数(acoustic features)。第二部分是将两部分信息转为声波(waveform)。


我们的系统最大的突破在于,这是第一个实时的神经网络 TTS,并且大家直接可以在 Azure 云上使用。


之前我们的很多与人类相比较的突破不同的是,之前的大部分突破是从研究角度,我们的算法可以达到人类的水平。例如我们在 ImageNet 图像识别数据集、Switchboard 语音识别数据集、SQuAD 问答数据集上的工作都是这一类型。而此次我们除了合成的声音 MOS 分(Mean Opinion Score)非常高,达到了与真人的声音不可区分的水平之外,最值得骄傲的是,我们构建了一个云计算服务系统,可以让大家来实时地使用 TTS。


实时深度神经网络 TTS 能够实现,有几个关键因素:第一是我们的云计算平台,提供了人工智能算力的支持;第二是我们的工程方面的进步,让这样一个序列到序列的过程可以实现实时;最后,我们的系统具有比较强的泛化能力,在实际应用场景中出现错误的概率比一般模型小很多。

 

机器之心:TTS 的使用文档中提到,用户可以提交训练样本定制自己的声音模型,想要完成定制,用户需要提交什么规模的何种数据?


「定制」是写在微软的基因里的一个概念。


我们第一次推出语音识别认知服务时,就同时推出了量身定制的语音识别系统,自然语言理解系统 LUIS 也是一个量身定制的语言理解系统,除此之外机器翻译、图像识别等等,都有量身定制的功能。


用户提供几百句声音样本数据,就能获得一个「入门」级的声音定制;提供五千句左右,可以进行「标准」的定制,如果能够提供一万句甚至更多,我们就能提供接近人声水平的 TTS 语音定制。

 

机器之心:TTS 和语音识别算法之间有哪些联系呢?


我们借鉴了很多语音识别领域的做法。


例如,以前李开复在卡内基梅隆大学的博士论文中,一个最大的贡献就是把不同人的声音合在一起,共同训练出一套通用的语音识别系统,而不需要为特定人训练自己的语音识别系统。


我们的语音合成系统也可以把不同人的声音性能整合起来,变成一个通用的、自然的语音合成系统。在这个情况下,要量身定制某一个人的语音就会比较容易。

 

机器之心:TTS 相比于机器翻译和语音识别模型,对算力的需求如何?


相对要求还是要高,这也是为什么其他厂商现在还没有提供实时神经网络语音合成系统的原因。


另一方面,TTS 的质量和对算力的要求是非线性的,想要达到类似人类的水平,需要的算力非常多,但是稍微降低要求,算力需求就小很多。

 

机器之心:TTS 有哪些应用场景?


最大的应用场景是智能音箱。其次是无障碍功能,Windows 可以读出屏幕中的内容。第三是公共汽车、火车、机场上的报站功能、GPS 导航、语音读物等等。


我们把「产生声音」的能力放在云上之后,人们可以用它进行各种不同的工作。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
21 3
|
9天前
|
运维 安全 5G
|
14天前
|
Docker 容器
docker swarm启动服务并连接到网络
【10月更文挑战第16天】
19 5
|
16天前
|
负载均衡 网络协议 关系型数据库
docker swarm 使用网络启动服务
【10月更文挑战第15天】
18 4
|
16天前
|
Docker 容器
docker swarm 在服务中使用网络
【10月更文挑战第14天】
13 2
|
29天前
|
存储 安全 网络安全
云端盾牌:云计算时代的网络安全守护在数字化浪潮中,云计算以其高效、灵活的特性成为企业转型的加速器。然而,伴随其迅猛发展,网络安全问题亦如影随形,成为悬在每个组织头顶的达摩克利斯之剑。本文旨在探讨云计算服务中的网络安全挑战,分析信息安全的重要性,并提出相应对策,以期为企业构建一道坚实的云端防护网。
在当今这个数据驱动的时代,云计算已成为推动创新与效率的关键力量。它允许用户随时随地访问强大的计算资源,降低了企业的运营成本,加速了产品上市时间。但随之而来的网络威胁也日益猖獗,尤其是对于依赖云服务的企业而言,数据泄露、身份盗用等安全事件频发,不仅造成经济损失,更严重损害品牌信誉。本文深入剖析云计算环境中的安全风险,强调建立健全的信息安全管理机制的重要性,并分享一系列有效策略,旨在帮助企业和个人用户在享受云服务带来的便利的同时,也能构筑起强有力的网络防线。
|
27天前
|
机器学习/深度学习 人工智能 安全
|
7天前
|
存储 安全 算法
网络安全与信息安全:漏洞、加密技术及安全意识的重要性
如今的网络环境中,网络安全威胁日益严峻,面对此类问题,除了提升相关硬件的安全性、树立法律法规及行业准则,增强网民的网络安全意识的重要性也逐渐凸显。本文梳理了2000年以来有关网络安全意识的研究,综述范围为中国知网中篇名为“网络安全意识”的期刊、硕博论文、会议论文、报纸。网络安全意识的内涵是在“网络安全”“网络安全风险”等相关概念的发展中逐渐明确并丰富起来的,但到目前为止并未出现清晰的概念界定。此领域内的实证研究主要针对网络安全意识现状与问题,其研究对象主要是青少年。网络安全意识教育方面,很多学者总结了国外的成熟经验,但在具体运用上仍缺乏考虑我国的实际状况。 内容目录: 1 网络安全意识的相关
下一篇
无影云桌面