语音生成领域模型又填一名猛将

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: TTS即Text-to-speech文本转语音是近几年AI研究领域的一大热点,该类模型语音合成领域有着非常广阔的应用。尤其是这两年有声书非常火热,有很多前几年积累的网络小说,经过TTS模型后,就变成了有声书,然后在喜马拉雅或蜻蜓FM等类似频道就可以上线售卖。又把该类模型的应用价值直接拉满。但一个好的语音合成模型却非常难得,一方面要生成的对,即准确率要高;另一方面生成的语音要真实、机械感低。尤其是第二个方面非常难得。人类对于语句的朗读是有抑扬顿挫的,有时又要结合句子含义,有感情的变化。这对于模型是非常难以学习训练的。

TTS即Text-to-speech文本转语音是近几年AI研究领域的一大热点,该类模型语音合成领域有着非常广阔的应用。

尤其是这两年有声书非常火热,有很多前几年积累的网络小说,经过TTS模型后,就变成了有声书,然后在喜马拉雅或蜻蜓FM等类似频道就可以上线售卖。又把该类模型的应用价值直接拉满。

但一个好的语音合成模型却非常难得,一方面要生成的对,即准确率要高;另一方面生成的语音要真实、机械感低。尤其是第二个方面非常难得。人类对于语句的朗读是有抑扬顿挫的,有时又要结合句子含义,有感情的变化。这对于模型是非常难以学习训练的。

此外还有多语种结合问题:如中文夹杂英文的情况;声色问题,即根据少量的声纹特点,合成具体声色的语音。比如男中音、女高音等。因此一个简洁好用的TTS模型可遇不可求。
2.jpg
1.jpg

目前主流的模型设计方案是分为两个部分:声学模型和声码器。声学模型主要采用类BERT类模型,把输入的文字经过NLP处理,预测出声学特征。声码器主要采用GAN类模型,把声学特征转换成声波信息。

AI模型市场最近上线了一款新的TTS模型,我们通过和作者的沟通,发现作者就是使用了上述的模型经过,在经过10几个小时的大数据量训练,成功孵化出一款优秀的TTS模型。实测下来发现,模型的准确度、速度、真实性都调教的非常均衡,还支持中英文~

有需要的小伙伴欢迎来AI模型市场(aimodelmarket.cn)试用,快来围观这款语音生成领域的猛将是如何玩转TTS的~
1.png

目录
相关文章
|
1月前
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
13 0
|
1月前
|
自然语言处理
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
|
4月前
|
人工智能
Coze 识别用户意图
Coze 识别用户意图
109 0
|
6月前
|
人工智能 自然语言处理 搜索推荐
如何让ChatGPT学习销售过往文字稿,并自动分析话术的优缺点,然后修改?
产品特点、服务优势、目标客户需求和痛点、行业与市场的趋势变化、竞争对手的优劣势、销售场景的特点和要求、销售环境、销售氛围、时间、地点、客户情感需求、心理转态、个性特点、解决方案
325 0
如何让ChatGPT学习销售过往文字稿,并自动分析话术的优缺点,然后修改?
|
6月前
|
算法 API 对象存储
视觉智能平台菜品识别要怎么做对比库呀?
视觉智能平台菜品识别要怎么做对比库呀?
97 1
09 公众号开发 - 回复用户语音消息识别代码
09 公众号开发 - 回复用户语音消息识别代码
55 0
|
存储 算法
短链系统设计-用户自定义短链
实现一个顾客短网址,使得顾客能创立他们自己的短网址。即你需要在前文基础上再实现一个 createCustom。
231 0
|
人工智能 编解码 自然语言处理
语音子系统应用 | 学习笔记
简介:快速学习语音子系统应用
语音子系统应用 | 学习笔记
|
人工智能 自然语言处理 Java
【如何实现多轮对话 】新增查空气质量的意图,实现多轮对话|学习笔记
快速学习【如何实现多轮对话 】新增查空气质量的意图,实现多轮对话