FunAudioLLM试炼

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 音频基座大模型FunAudioLLM,可以想你朋友一样和你对话,情感语境的识别,突破物理限制。

FunAudioLLM
音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。开源代码库为https://github.com/FunAudioLLM。主要的作用SenseVoice是为了识别声音,CosyVoice则是为了生成有感情的朗读内容。
工作环境: https://www.modelscope.cn/studios/iic/SenseVoice,
https://www.modelscope.cn/studios/iic/CosyVoice-300M
语音识别最主要的功能就是方言的识别,尝试了一下甘肃的方言,没有识别:
image.png

使用音乐试一下是否可以生成想要的音乐模式,上传后可以识别,并且有对应的语气和情感的识别,功能还是非常具有眼前一亮的效果的。
image.png

识别语言的语气和情感则是区别机器和人的最重要的区别。并且可以实现不同语言语境的切换,非常厉害。
image.png

语言生成:
image.png

有多种的语音的生成,还可以具有不同的语言模式,整体生成的效果非常好,就和正常的朗读一般,这将对机器的发声非常有帮助。适应于不同的语境和不同的场景,例如机器拨打电话,就可以很大程度的模仿人类,或者车站播报,播报是相对于具有机械性质的语言模式。

AI代码分析,两个工程主要实现语言是python,工程的安装具有一定的挑战,并且AI的计算需要硬件的支持,这是非常大的痛点。
image.png

使用方式简单,就是只需要引入对应的module,然后调用即可。

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
output = cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女')
torchaudio.save('sft.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k)
torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k)
torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
output = cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.')
torchaudio.save('instruct.wav', output['tts_speech'], 22050)
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与自然语言处理:探索未来人机交互的新篇章
本文旨在探讨深度学习在自然语言处理(NLP)领域的应用及其对未来人机交互方式的潜在影响。随着技术的不断进步,深度学习和NLP的结合不仅推动了人工智能领域的发展,也为人类与机器之间的沟通提供了更加自然、高效的桥梁。文章首先概述了深度学习和自然语言处理的基本概念,接着深入分析了它们融合的技术细节,并通过实例展示了这种结合如何促进人机交互方式的创新。最后,讨论了该领域面临的挑战与机遇,以及未来可能的发展方向。
|
3月前
|
机器学习/深度学习 传感器 自然语言处理
深度学习之沉浸式体验增强
基于深度学习的沉浸式体验增强技术旨在通过智能化手段提升用户在虚拟现实(VR)、增强现实(AR)和混合现实(MR)环境中的体验。
56 1
|
5月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自然语言生成技术
【7月更文挑战第28天】自然语言生成技术
73 5
|
2月前
|
机器学习/深度学习 人工智能 算法
利用AI技术进行图像识别的探索之旅
【10月更文挑战第21天】本文主要介绍了如何运用人工智能技术进行图像识别。通过深入浅出的解释,让读者对AI图像识别有更深入的理解。同时,文章还提供了一些代码示例,帮助读者更好地理解和应用这些技术。
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
使用Python实现深度学习模型:智能产品设计与开发
【10月更文挑战第2天】 使用Python实现深度学习模型:智能产品设计与开发
73 4
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
利用AI技术实现情感分析的探索之旅
【8月更文挑战第30天】本文将带你深入理解如何通过AI技术来执行情感分析,揭示这一过程的神秘面纱。我们将从基础理论出发,逐步引入实践操作,包括数据处理、模型选择和训练等步骤。你将看到,通过Python编程语言和一些专门的库,我们能够构建出可以识别文本情感倾向的模型。这不仅是一项有趣的技术挑战,更有着广泛的应用前景,比如在社交媒体监控、市场研究、客户服务等领域。无论你是AI技术的初学者,还是有一定基础的开发者,这篇文章都将为你打开一扇新的大门,让你对AI技术有更深的理解和认识。
|
4月前
|
机器学习/深度学习 Java API
FunAudioLLM 在教育领域的应用案例
【8月更文第28天】随着在线教育的兴起和技术的进步,高质量的语音合成技术变得越来越重要。FunAudioLLM(虚构名称)是一款先进的语音合成引擎,能够提供自然流畅的声音,尤其适用于教育领域,如语言学习、听力训练等。本文将详细介绍 FunAudioLLM 如何改善在线学习体验,并通过具体的代码示例展示其在教育领域的应用。
102 1
|
4月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
利用机器学习进行图像识别的探索之旅
【8月更文挑战第4天】在数字化时代的浪潮中,图像识别技术如同一把钥匙,开启了信息处理的新纪元。本文将带领读者深入机器学习的世界,通过Python语言和scikit-learn库,实现一个简单的手写数字识别模型。我们将一起探索数据预处理、模型训练以及结果评估等关键环节,并尝试对模型进行优化,以提高识别准确率。这不仅是一场技术的冒险,也是对未来无限可能的憧憬。
|
4月前
|
机器学习/深度学习 算法 PyTorch
多模态融合在 FunAudioLLM 中的应用
【8月更文第28天】随着深度学习的发展,多模态融合技术已经成为构建更加智能和自然的人机交互系统的关键。FunAudioLLM(Fun Audio Language Model)是一种旨在结合音频与文本数据以实现更自然、更丰富的声音合成效果的框架。本文将详细介绍 FunAudioLLM 如何利用多模态融合技术,并提供具体的代码示例。
57 0

热门文章

最新文章