交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!

简介: 上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。

01

引言

上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。F5-TTS不需要复杂的模型设计,如持续时间模型、文本编码器和音素对齐等,只需要将输入文本填充为与输入语音相同的长度,并进行去噪以生成语音,这最初由E2-TTS证明是可行的。然而,E2-TTS的设计使得其收敛速度慢且鲁棒性低。为了解决这些问题,F5-TTS首先使用ConvNeXt来细化文本表示,使其更容易与语音对齐。

此外,F5-TTS还提出了一种在推理时采样的策略,显著提高了模型性能和效率。这种flow step的采样策略可以轻松应用于现有的基于flow matching的模型而无需重新训练。F5-TTS的设计允许更快的训练并实现0.15的推理RTF,相比最先进的扩散式TTS模型有了很大的提高。在公共的多语言100万小时数据集上训练后,F5-TTS生成的语音具有高度自然和表达性的零样本能力、无缝代码切换能力和速度控制效率。

image.png

代码链接:

https://github.com/SWivid/F5-TTS

模型链接:

https://modelscope.cn/models/SWivid/F5-TTS_Emilia-ZH-EN

https://modelscope.cn/models/SWivid/E2-TTS_Emilia-ZH-EN

体验链接(pc访问):

https://modelscope.cn/studios/modelscope/E2-F5-TTS

论文链接:

https://arxiv.org/abs/2410.06885

02

模型效果

零样本生成

Prompt

Same Language Generation

I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences.

Cross-linugal Generation

顿时,气氛变得沉郁起来。乍看之下,一切的困扰仿佛都围绕在我身边。我皱着眉头,感受着那份压力,但我知道我不能放弃,不能认输。于是,我深吸一口气,心底的声音告诉我:“无论如何,都要冷静下来,重新开始。”

速度控制

Prompt

Text

I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences.

情感

Emotion

Calm/冷静的

Prompt

Text

So, I was, like, at the, um, grocery store, and, uh, I saw this, like, really yummy-looking, um, cake, y’know? And I, uh, totally wanted to, like, buy it, but, um, I was, like, on a diet, so, uh, I just, like, stared at it for a while, y’know?

鲁棒性等更多效果,请至合集查看:

https://swivid.github.io/F5-TTS/#zero-shot

03

魔搭最佳实践

在魔搭社区的PAI-DSW免费算力(A10)上体验F5-TTS

image.png

目前单次生成支持 30 秒,即提示音频和生成音频的总inference-cli长度。和支持使用块进行批量推理gradio_app。

  • 为了避免可能出现的推理失败,请确保您已阅读完以下说明。
  • 较长的提示音允许生成较短的输出。超过 30 秒的部分无法正常生成。请考虑使用小于 15 秒的提示音。
  • 大写字母会逐个字母地发音,因此对于普通单词请使用小写字母。
  • 添加一些空格(空白:“”)或标点符号(例如“,” “。”)以明确引入一些停顿。如果在代码转换生成中跳过前几个单词(因为不同语言的速度不同),这可能会有所帮助。

环境安装

下载repo

git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS

安装其他依赖:

pip install -r requirements.txt

模型下载

下载vocos-mel-24khz模型:

modelscope download --model=pengzhendong/vocos-mel-24khz --local_dir ../checkpoints/charactr/vocos-mel-24khz

下载模型文件:

modelscope download --model=SWivid/F5-TTS_Emilia-ZH-EN  --local_dir ./ckpts/ F5TTS_Base/model_1200000.bin
modelscope download --model=SWivid/E2-TTS_Emilia-ZH-EN  --local_dir ./ckpts/ E2TTS_Base/model_1200000.bin

模型推理

使用inference-cli推理

python inference-cli.py \
--model "F5-TTS" \
--ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \
--load_vocoder_from_local \
--ref_text "Some call me nature, others call me mother nature." \
--gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences."
python inference-cli.py \
--model "E2-TTS" \
--ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \
--load_vocoder_from_local \
--ref_text "对,这就是我,万人敬仰的太乙真人。" \
--gen_text "突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道,我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?"

模型WebUI

目前支持的功能:

  • 模型推理
  • Podcast Generation
  • Multiple Speech-Type Generation

可以启动 Gradio 应用程序(Web 界面)来启动 GUI 进行推理,目前一次加载 ASR 模型、F5-TTS 和 E2 TTS,因此比 使用的 GPU 内存更多inference-cli。

git clone https://www.modelscope.cn/studios/modelscope/E2-F5-TTS.git
cd E2-F5-TTS
python app.py

注:如涉及Vocos.from_pretrained不支持local_dir,可以尝试修改Vocos源码

@classmethod
    def from_pretrained(cls, local_dir: str, repo_id: str = None, revision: Optional[str] = None) -> Vocos:
        """
        Class method to create a new Vocos model instance from a pre-trained model stored in the Hugging Face model hub.
        """
        if local_dir:
            config_path = os.path.join(local_dir, "config.yaml")
            model_path = os.path.join(local_dir, "pytorch_model.bin")
        elif repo_id:
            config_path = hf_hub_download(repo_id=repo_id, filename="config.yaml", revision=revision)
            model_path = hf_hub_download(repo_id=repo_id, filename="pytorch_model.bin", revision=revision)

点击链接👇即可跳转体验~

https://modelscope.cn/studios/modelscope/E2-F5-TTS

相关文章
|
自然语言处理 语音技术 开发者
开源上新|FunASR多语言离线文件转写软件包
开源上新|FunASR多语言离线文件转写软件包
|
人工智能 并行计算 openCL
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
随着 Llama2 的开源,以及通义千问、百川、智谱等国内大模型的问世,很多用户有了本地部署去尝试大模型的需求,然而硬件的需求阻碍了很多人的尝试,并不是所有人都拥有一块英伟达显卡的,所以 Llama2 问世不久,大神 Andrej Karpathy 的一个 weekend project 爆火——llama2.c。
魔搭+Xinference 平台:CPU,GPU,Mac-M1多端大模型部署
|
存储 传感器 定位技术
【NI Multisim 14.0原理图设计基础——元器件分类】
一、元器件分类 NI Multisim 14.0不仅提供了数量众多的元器件符号图形,而且还设计了元器件的模型,并分门类地存储在各个元器件库中。下面按照元器件库的命名不同详细介绍常用的元器件。 1.电源库 单击“元器件”工具栏中的“放置源” 按钮,Sources 库的“系列”栏包括以下几种,如图所示: 电源(POWER-SOURCES):包括常用的交直流电源、数字地、地线、星形或三角形连接的三相电源、VCC、VDD、VEE、VSS 电压源,其元器件”栏下内容如图所示: 电压信号源(SIGNAL-VOLTAG…):包括交流电压、时钟电压、脉冲电压、指数电压、FM、AM等多种形式的电压信号,其“元器
18717 3
【NI Multisim 14.0原理图设计基础——元器件分类】
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
4063 1
|
11月前
|
弹性计算 应用服务中间件 API
AppFlow:无代码部署Dify并集成到企业微信
本文介绍如何通过计算巢AppFlow完成Dify的无代码部署,并将Dify应用集成到企业微信中使用。具体步骤包括:创建企业微信应用,获取AgentID和Secret;使用计算巢AppFlow模板创建连接流,配置Dify和企业微信的鉴权凭证;配置企业微信API接收消息和可信IP;最后测试应用确保正常运行。文中还提供了常见问题的解决方案,如域名主体校验未通过和配置企业可信IP报错等。
2702 11
AppFlow:无代码部署Dify并集成到企业微信
|
Arthas 监控 数据可视化
JVM进阶调优系列(7)JVM调优监控必备命令、工具集合|实用干货
本文介绍了JVM调优监控命令及其应用,包括JDK自带工具如jps、jinfo、jstat、jstack、jmap、jhat等,以及第三方工具如Arthas、GCeasy、MAT、GCViewer等。通过这些工具,可以有效监控和优化JVM性能,解决内存泄漏、线程死锁等问题,提高系统稳定性。文章还提供了详细的命令示例和应用场景,帮助读者更好地理解和使用这些工具。
|
12月前
|
自然语言处理 语音技术 开发工具
CosyVoice再升级,可扩展流式语音合成
通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型:语言模型 (LM) 和流匹配进行渐进式语义解码,CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。
2185 2
CosyVoice再升级,可扩展流式语音合成
|
11月前
|
人工智能 安全 机器人
国内怎么使用claude?这篇文章教会你!
渴望体验 Anthropic 公司的杰作
2038 1
|
12月前
|
人工智能 自然语言处理 算法
开源更新|语音生成大模型CosyVoice升级2.0版本
开源更新|语音生成大模型CosyVoice升级2.0版本
|
供应链 数据挖掘 Java
电商API接口介绍
‌电商API接口‌是指一组用于访问电商平台中数据的编程接口,通过这些接口,开发者可以以编程方式获取商品信息、订单信息、用户信息等,实现电商平台数据的对接和交互。
418 5