CosyVoice 2流式语音合成模型介绍与实践-开发者社区-阿里云

CosyVoice再升级，可扩展流式语音合成

2024-12-17 3062

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型：语言模型 (LM) 和流匹配进行渐进式语义解码，CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。

01.引言

通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型：语言模型 (LM) 和流匹配进行渐进式语义解码，CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。近年来，多模态大型语言模型 (LLM) 取得了重大进展，其中语音合成的响应延迟和实时性对交互体验至关重要。因此，本文提出了一种改进的流式语音合成模型CosyVoice 2，并进行了全面而系统的优化。

首先，引入有限标量量化来提高语音tokens的codebase利用率。其次，简化了文本-语音 LM 的模型架构，以便可以直接使用预训练的 LLM 作为主干。此外，设计了一个块感知的因果流匹配模型以适应不同的合成场景。因此，可以在单个模型中执行流式和非流式合成。通过在大型多语言数据集上进行训练，CosyVoice 2 实现了与人类相当的合成质量，并且具有非常低的响应延迟和实时性。

小编敲黑板，模型特点：

超低延迟：CosyVoice 2.0引入了离线与流式建模相结合的大规模语音生成模型技术，支持双向流式语音合成，首包合成延迟可达150ms，且音质损失极小。

高准确率：与CosyVoice 1.0相比，CosyVoice 2.0将合成音频的发音错误率降低了30%-50%，在Seed-TTS评估集的硬测试集上实现了目前最低的字符错误率。

稳定性强：CosyVoice 2.0 保证了零样本语音生成和跨语言语音合成的音色一致性，跨语言合成性能较 1.0 版本有显著提升。

自然体验：CosyVoice 2.0 合成音频的韵律、音质、情感对齐等均较 1.0 版本有大幅提升，MOS 评分由 5.4 提升至 5.53（商用大规模语音合成模型可比得分 5.52）。此外，CosyVoice 2.0 升级了可控音频生成能力，支持更精细的情感控制和方言口音调整。

模型链接：

https://modelscope.cn/models/iic/CosyVoice2-0.5B

体验链接：

https://modelscope.cn/studios/iic/CosyVoice2-0.5B

02.模型体验

零样本上下文生成

Prompt

对，这就是我，万人敬仰的太乙真人，虽然有点幼稚肥大，但也掩盖

https://vod-yq-aliyun.taobao.com/vod-7651a3/2010fd59bc2a71efbfce5017f0f90102/42cb4b6bf5ae426a9e5fb0234f367dc4-7d53aeaac9b2cad8128f058b5db20851-hd.mp4

Generated 1

突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩

https://vod-yq-aliyun.taobao.com/vod-7651a3/f0f52a76bc2a71efbfac5017e1f80102/ea653a432a7547478092dae094c12a16-4bffdbe352861967897f22f1b1f941d2-hd.mp4

不少人从四面八方赶来，只为目睹我的风采。看，他们眼中流露出的

https://vod-yq-aliyun.taobao.com/vod-7651a3/20b7aee8bc2971ef901e0764a0ec0102/6c6cb6ac5fb64ed1964ad39a29d2aef5-e717d377fb22354d38ccf9ee37b07c84-hd.mp4

跨语言上下文生成

如果能对小事感到感激和满足，那他就是幸福的人。

https://vod-yq-aliyun.taobao.com/vod-7651a3/404bc766bc2a71efbf986733a78e0102/848eea118f034731b432165817e5019d-1d148b6584a08a7d4d2e79c92094b519-hd.mp4

If one knows how to be grateful and content with small thin

https://vod-yq-aliyun.taobao.com/vod-7651a3/4087a4a8bc3871ef80115107e0c90102/ce674d5b8fab496ca91a09c222b423a1-49dd195d36e991f08246e8bd0d86643f-hd.mp4

小さなことに感謝し満足することができれば、その人は幸せな人で,

https://vod-yq-aliyun.taobao.com/vod-7651a3/10b3f186bc2a71efa7466733a68f0102/1ec2fb830c0c4f1c9527697c3f717f93-535cd59a4180792ec2b9bb662aaf333f-hd.mp4

작은 것을 가지고도 고마워하고 만족할 줄 안다면 그는 행복한,

https://vod-yq-aliyun.taobao.com/vod-7651a3/0004eeadbc2a71efbfa96732b68e0102/3a0068e894274b24941b14c64f0f1583-1b06a2301947310296f44d7024974514-hd.mp4

混合语言上下文生成

Prompt

A chance to leave him alone but no, she just wanted to see

https://vod-yq-aliyun.taobao.com/vod-7651a3/b017f894bc2a71efa4855420848d0102/5aa02eb0bac64607a6e77faa5836a7ea-0865f75bf2e1ad0eaa25a08d901c5dc2-hd.mp4

打开文档，首先打开您所使用的文档编辑软件，如打开Microsoft Word或,

https://vod-yq-aliyun.taobao.com/vod-7651a3/70bda84cbc2a71efbff76732b68f0102/45c1c429071042de943b9e7042c588e5-1990dc257b106a05c8ba1ac16fff00f6-hd.mp4

CosyVoice2.0

文档，首先打开您所使用的文档编辑软件，如打开Microsoft Word或

https://vod-yq-aliyun.taobao.com/vod-7651a3/9089e83ebc2a71efa8885017f0e80102/8d489dd9df284fb59c5ea5ad5aa6dd6f-3f2701747e80fbce0e388c89e945b2f4-hd.mp4

03.模型使用

模型下载：

cli下载

modelscope download --model iic/CosyVoice2-0.5B

python SDK下载

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('iic/CosyVoice2-0.5B')

模型推理

clone代码repo

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git# If you failed to clone submodule due to network failures, please run following command until successcd CosyVoicegit submodule update --init --recursivepip install -r requirements.txt

下载模型到对应路径

from modelscope import snapshot_downloadsnapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')

指定python路径

export PYTHONPATH=third_party/Matcha-TTS

CosyVoice2模型推理

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2from cosyvoice.utils.file_utils import load_wavimport torchaudiocosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)# zero_shot usageprompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# fine grained control, for supported control, check cosyvoice/tokenizer/tokenizer.py#L248prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中，他突然[laughter]停下来，因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)):    torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# instruct usagefor i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)):    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

模型WebUI部署

clone创空间代码

git clone https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B.git

安装依赖并推理

cd CosyVoice2-0.5Bpip install -r requirements.txtpython app.py

页面示例

点击链接阅读原文：https://modelscope.cn/models/iic/CosyVoice2-0.5B

CosyVoice再升级，可扩展流式语音合成

01.引言

02.模型体验

零样本上下文生成

跨语言上下文生成

03.模型使用

模型推理

模型WebUI部署

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书