CosyVoice再升级,可扩展流式语音合成

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型:语言模型 (LM) 和流匹配进行渐进式语义解码,CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。

01.引言

通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型:语言模型 (LM) 和流匹配进行渐进式语义解码,CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。近年来,多模态大型语言模型 (LLM) 取得了重大进展,其中语音合成的响应延迟和实时性对交互体验至关重要。因此,本文提出了一种改进的流式语音合成模型CosyVoice 2,并进行了全面而系统的优化。


首先,引入有限标量量化来提高语音tokens的codebase利用率。其次,简化了文本-语音 LM 的模型架构,以便可以直接使用预训练的 LLM 作为主干。此外,设计了一个块感知的因果流匹配模型以适应不同的合成场景。因此,可以在单个模型中执行流式和非流式合成。通过在大型多语言数据集上进行训练,CosyVoice 2 实现了与人类相当的合成质量,并且具有非常低的响应延迟和实时性。

image.png

小编敲黑板,模型特点:

超低延迟:CosyVoice 2.0引入了离线与流式建模相结合的大规模语音生成模型技术,支持双向流式语音合成,首包合成延迟可达150ms,且音质损失极小。


高准确率:与CosyVoice 1.0相比,CosyVoice 2.0将合成音频的发音错误率降低了30%-50%,在Seed-TTS评估集的硬测试集上实现了目前最低的字符错误率。


稳定性强:CosyVoice 2.0 保证了零样本语音生成和跨语言语音合成的音色一致性,跨语言合成性能较 1.0 版本有显著提升。


自然体验:CosyVoice 2.0 合成音频的韵律、音质、情感对齐等均较 1.0 版本有大幅提升,MOS 评分由 5.4 提升至 5.53(商用大规模语音合成模型可比得分 5.52)。此外,CosyVoice 2.0 升级了可控音频生成能力,支持更精细的情感控制和方言口音调整。


模型链接:

https://modelscope.cn/models/iic/CosyVoice2-0.5B


体验链接:

https://modelscope.cn/studios/iic/CosyVoice2-0.5B


02.模型体验

零样本上下文生成

Prompt

对,这就是我,万人敬仰的太乙真人,虽然有点幼稚肥大,但也掩盖

https://vod-yq-aliyun.taobao.com/vod-7651a3/2010fd59bc2a71efbfce5017f0f90102/42cb4b6bf5ae426a9e5fb0234f367dc4-7d53aeaac9b2cad8128f058b5db20851-hd.mp4

Generated 1

突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩

https://vod-yq-aliyun.taobao.com/vod-7651a3/f0f52a76bc2a71efbfac5017e1f80102/ea653a432a7547478092dae094c12a16-4bffdbe352861967897f22f1b1f941d2-hd.mp4

不少人从四面八方赶来,只为目睹我的风采。看,他们眼中流露出的

https://vod-yq-aliyun.taobao.com/vod-7651a3/20b7aee8bc2971ef901e0764a0ec0102/6c6cb6ac5fb64ed1964ad39a29d2aef5-e717d377fb22354d38ccf9ee37b07c84-hd.mp4


跨语言上下文生成

ZH

如果能对小事感到感激和满足,那他就是幸福的人。

https://vod-yq-aliyun.taobao.com/vod-7651a3/404bc766bc2a71efbf986733a78e0102/848eea118f034731b432165817e5019d-1d148b6584a08a7d4d2e79c92094b519-hd.mp4


EN

If one knows how to be grateful and content with small thin

https://vod-yq-aliyun.taobao.com/vod-7651a3/4087a4a8bc3871ef80115107e0c90102/ce674d5b8fab496ca91a09c222b423a1-49dd195d36e991f08246e8bd0d86643f-hd.mp4


JP

小さなことに感謝し満足することができれば、その人は幸せな人で,

https://vod-yq-aliyun.taobao.com/vod-7651a3/10b3f186bc2a71efa7466733a68f0102/1ec2fb830c0c4f1c9527697c3f717f93-535cd59a4180792ec2b9bb662aaf333f-hd.mp4


KO

작은 것을 가지고도 고마워하고 만족할 줄 안다면 그는 행복한,

https://vod-yq-aliyun.taobao.com/vod-7651a3/0004eeadbc2a71efbfa96732b68e0102/3a0068e894274b24941b14c64f0f1583-1b06a2301947310296f44d7024974514-hd.mp4


混合语言上下文生成

Prompt

A chance to leave him alone but no, she just wanted to see

https://vod-yq-aliyun.taobao.com/vod-7651a3/b017f894bc2a71efa4855420848d0102/5aa02eb0bac64607a6e77faa5836a7ea-0865f75bf2e1ad0eaa25a08d901c5dc2-hd.mp4


打开文档,首先打开您所使用的文档编辑软件,如打开Microsoft Word或,

https://vod-yq-aliyun.taobao.com/vod-7651a3/70bda84cbc2a71efbff76732b68f0102/45c1c429071042de943b9e7042c588e5-1990dc257b106a05c8ba1ac16fff00f6-hd.mp4


CosyVoice2.0

文档,首先打开您所使用的文档编辑软件,如打开Microsoft Word或

https://vod-yq-aliyun.taobao.com/vod-7651a3/9089e83ebc2a71efa8885017f0e80102/8d489dd9df284fb59c5ea5ad5aa6dd6f-3f2701747e80fbce0e388c89e945b2f4-hd.mp4


更多案例:

https://funaudiollm.github.io/cosyvoice2/

03.模型使用

模型下载:

cli下载

modelscope download --model iic/CosyVoice2-0.5B

python SDK下载

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('iic/CosyVoice2-0.5B')

模型推理

clone代码repo

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git# If you failed to clone submodule due to network failures, please run following command until successcd CosyVoicegit submodule update --init --recursivepip install -r requirements.txt

下载模型到对应路径

from modelscope import snapshot_downloadsnapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')

指定python路径

export PYTHONPATH=third_party/Matcha-TTS

CosyVoice2模型推理

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2from cosyvoice.utils.file_utils import load_wavimport torchaudiocosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)# zero_shot usageprompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# fine grained control, for supported control, check cosyvoice/tokenizer/tokenizer.py#L248prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)):    torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# instruct usagefor i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)):    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

模型WebUI部署

clone创空间代码

git clone https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B.git

安装依赖并推理

cd CosyVoice2-0.5Bpip install -r requirements.txtpython app.py

页面示例


image.png

点击链接阅读原文:https://modelscope.cn/models/iic/CosyVoice2-0.5B


相关文章
|
21天前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
552 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
21天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
75 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
30天前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
118 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
5月前
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
167 3
|
6月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
132 1
|
7月前
|
语音技术
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
【手把手教学】最新ChatTTS语音合成项目使用指南【附所有源码与模型】
|
8月前
|
自然语言处理 文字识别 Linux
ModelScope运行语音合成模型的官网代码示例报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
205 0
|
8月前
|
自然语言处理 搜索推荐 PyTorch
ModelScope问题之NoteBook训练个性化语音合成模型报错如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
114 0
|
8月前
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
595 2

热门文章

最新文章