阿里通义音频生成大模型 FunAudioLLM 开源!

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。

导读

人类对自身的研究和模仿由来已久,在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。

近日,阿里通义实验室发布并开源了语音大模型项目FunAudioLLM,旨在深化人类与大型语言模型(LLMs)之间的自然语音交互体验。这一框架的核心是两个创新模型:SenseVoice和CosyVoice。

image.gif

CosyVoice 致力于自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

  • 多语言合成:采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。
  • 极速音色模拟:仅需要3~10s的原始音频,即可生成模拟音色,甚至包括韵律、情感等细节。在跨语种的语音合成中,也有不俗的表现。
  • 富文本或自然语言的细粒度控制:支持以富文本或自然语言的形式,对合成语音的情感、韵律进行细粒度的控制,合成音频在情感表现力上得到明显提升。

SenseVoice 则专注于高精度多语言语音识别、情感辨识和音频事件检测。

  • 多语言识别:采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型,中文与粤语上提升50%以上。
  • 富文本识别:
  • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
  • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
  • 推理速度:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-large。

应用场景

基于SenseVoice和CosyVoice模型,FunAudioLLM可支持较多的人机交互应用场景,例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客、有声读物等。

同音交传:模拟音色与情感的多语言翻译

image.gif

通过结合SenseVoice、LLMs以及CosyVoice,我们可以无缝地进行语音到语音的翻译(S2ST)。需要注意的是,原始录音在文本中会以粗体显示。这种集成化的方法不仅提升了翻译的效率和流畅性,而且通过感知语音中的情感和语调,它能够在译文中复现原始语音的情感色彩,让对话的交流更加真实和动人。

无论是多语种的会议通译、跨文化的交流沟通,还是为非母语者提供即时语音翻译服务,这一技术都将大大缩小语言差距和沟通中的信息减损。

同音交传:模拟音色与情感的多语言翻译

image.gif

通过结合SenseVoice、LLMs以及CosyVoice,我们可以无缝地进行语音到语音的翻译(S2ST)。需要注意的是,原始录音在文本中会以粗体显示。这种集成化的方法不仅提升了翻译的效率和流畅性,而且通过感知语音中的情感和语调,它能够在译文中复现原始语音的情感色彩,让对话的交流更加真实和动人。

无论是多语种的会议通译、跨文化的交流沟通,还是为非母语者提供即时语音翻译服务,这一技术都将大大缩小语言差距和沟通中的信息减损。

强情感交互的语音对话

image.gif

通过融合SenseVoice、大型语言模型(LLMs)和CosyVoice,能够支持开发一款情感语音聊天应用程序。

当SenseVoice解析出情绪/情感/咳嗽等副语言信息后,大模型输出相对应的反馈情绪,并由CosyVoice合成出适当的声音情绪,从而完成舒适自然的对话交互过程。在以下示例中,用户和助手的所有对话内容均由CosyVoice合成。

image.gif

专属AI博客电台

image.gif

通过将SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice整合,我们能够创造一个互动式播客电台。

在这样的播客中,SenseVoice利用其高精度多语言语音识别功能,实时捕捉AI播客和用户的对话,甚至能够辨识环境音效和情感。LLM多代理系统则能够处理SenseVoice提供的语音数据,实时更新世界知识库,确保话题和信息的及时性和准确性。

在交互中,用户可以随时打断AI播客的对话,引导主题方向等,CosyVoice将用于生成AI播客的语音,具备多种语言、音色和情感的控制能力,为听众带来丰富多彩的听觉体验。

image.gif

有声读物

image.gif

添加图片注释,不超过 140 字(可选)

借助LLMs出色的分析能力,可对书籍内容进行结构化并识别其中的情感,再与CosyVoice的语音合成技术结合,我们能够实现具有更高表现力的有声读物。

LLMs深入理解文本,捕捉每一个情感波动和故事弧线,而CosyVoice则将这些情感细腻地转化为语音,带有特定的情绪色彩和强调,为听众提供一个不仅丰富多彩而且情感充沛的听觉体验。

这样的有声读物不再是单一无变化的朗读,而是一场充满情感与生动表达的听觉盛宴,让每个故事和角色都栩栩如生。

image.gif

技术原理解析

CosyVoice

CosyVoice是一款基于语音量化编码的语音生成大模型。它对语音进行离散化编码,并依托大模型技术,实现自然流畅的语音合成体验。与传统语音合成技术相比,CosyVoice具有韵律自然、音色逼真等特点。CosyVoice支持多达5种语言,同时还支持以自然语言或富文本形式对合成语音进行情感等维度的细粒度控制。我们提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。

image.gif

研究团队还使用预训练的情感分类模型评价了CosyVoice的情感控制能力,主要包括高兴/悲伤/生气/害怕/反感等5种高表现力的语音情感。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。

SenseVoice

SenseVoice是一个基础语音理解模型,具备多种语音理解能力,涵盖了自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频事件检测(AED)。该模型旨在提供全面的语音处理功能,从而支持构建更复杂的语音交互系统。

SenseVoice-Small 是一款仅含编码器的轻量级基础语音模型,设计用于快速语音理解。它可以快速处理语音数据,并在有需要时迅速做出响应,适用于对延迟敏感的应用场合,如实时语音交互系统。SenseVoice-Large 则是一个包含编码器和解码器的大型基础语音模型。这个版本的SenseVoice专注于更精确的语音理解,拥有对更多语言的支持能力。它适合于对识别精度有更高要求的场景,可以处理更复杂的语音输入,并生成更为准确的结果。

image.gif

SenseVoice-Small与SenseVoice-Large模型都能在语音中检测音频事件,包括音乐、掌声和笑声。SenseVoice-Large模型除了能够预测音频事件的类型,还能精准识别事件发生的起始和结束位置。与之相比,SenseVoice-Small模型虽然仅能预测音频中发生的事件类型(仅限于一个事件),但它能够检测到更多种类的事件,诸如在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。

魔搭社区体验

CosyVoice和SenseVoice相关的模型已在ModelScope上开源,同时在GitHub上发布了相应的训练、推理和微调代码,欢迎大家体验!

CosyVoice

选择【预置语音生成】

选择预制的几个不同性别/语种的音色,输入文本合成试听效果(可尝试输入[laughter],触发彩蛋~)

image.gif

选择【定制语音生成】

直接录一句话,即可用自己的音色输出更多合成文本,支持下载~

image.gif

选择【高级语音生成(支持自然语言控制)】

在【预置语音生成】功能的基础上,可通过自定义情绪、语速等修饰,让合成文本的情景感更可控、生动。

image.gif

SenseVoice

上传音频文件或通过麦克风输入,选择任务和语言

音频将被转录成相应的文本,并附带相关情感(😊 高兴,😡 生气/激动,😔 悲伤) 和 声音事件类型(😀 笑声,🎼 音乐,👏 掌声,🤧 咳嗽&打喷嚏,😭 哭泣)

相关文章
|
人工智能 测试技术 API
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
音频基座大模型FunAudioLLM评测
通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。
77 1
音频基座大模型FunAudioLLM评测
|
2月前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
306 5
|
3月前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
21799 26
|
3月前
|
人工智能 数据处理 语音技术
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
51 10
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
通义语音AI技术问题之TTS的生成效果和流式推理高效性如何解决
通义语音AI技术问题之TTS的生成效果和流式推理高效性如何解决
59 5
|
4月前
|
自然语言处理 测试技术 API
探索通义语音团队的创新之作 —— FunAudioLLM模型评测
随着人工智能技术的飞速发展,语音识别和语音合成技术在各个领域得到了广泛应用。阿里云推出的“通义语音大模型FunAudioLLM”作为最新的语音处理技术,备受业界关注。本次评测将深入探讨通义语音大模型的功能、性能及其在实际应用中的表现。
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之正则化DINO框架在说话人识别任务领域的应用如何解决
通义语音AI技术问题之正则化DINO框架在说话人识别任务领域的应用如何解决
28 0
|
6月前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
|
编解码 人工智能 自然语言处理
通义千问开源第二波!多模态来啦!(内含魔搭最佳实践)
近期,通义千问大规模视觉语言模型Qwen-VL上线魔搭社区,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
下一篇
无影云桌面