驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

简介: 3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。

3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。

模型尺寸:Sesame训练了三种模型大小,由backbone和解码器大小划分:

  • Tiny:1B backbone,100M 解码器
  • Small:3B backbone,250M 解码器
  • Medium:8B backbone,300M 解码器

本次Sesame开源的模型是tiny版本 CSM-1b,开源模型在魔搭社区和HuggingFace都可以下载到。一个微调版的CSM可以在Sesame官网博客文章中展示的交互式语音演示中体验。

模型:

https://www.modelscope.cn/models/sesameAILabs/csm-1b

CSM-1B体验:

https://modelscope.cn/studios/sesameAILabs/csm-1b/summary

微调版CSM体验(Maya效果):

Sesame官网:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

01.会话语音模型

模型结构

CSM 是一种直接对 RVQ 标记进行操作的多模态文本和语音模型,使用了两个自回归变换器,在第零个码本处拆分变换器。第一个多模态主干网络处理交错的文本和音频以对第零个码本进行建模。第二个音频解码器对每个码本使用不同的线性头,并对剩余的 N – 1 个码本进行建模,以根据主干网络的表示重建语音。解码器比主干网络小得多,从而能够实现低延迟生成,同时保持模型的端到端。

CSM 模型推理过程

这两个转换器都是 Llama 架构的变体。文本标记通过 Llama 标记器生成,而音频则使用 Mimi(一种 split-RVQ 标记器)进行处理,以 12.5 Hz 的频率每帧生成一个语义码本和 N – 1 个声学码本。训练样本的结构为文本和音频的交替交错模式,说话者身份直接编码在文本表示中。

计算摊销

这种设计在训练过程中带来了巨大的基础设施挑战。音频解码器自回归处理有效批量大小为 B × S 和 N 个码本,即使模型很小,这种高内存负担也会减慢训练速度、限制模型扩展并阻碍快速实验。

为了应对这些挑战,该团队提出一种计算摊销方案,该方案可以缓解内存瓶颈,同时保持完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零码本则在每个帧上进行训练。使用这种方法时,在训练过程中没有观察到音频解码器损失的明显差异。

摊销训练过程

效果评估

评估套件从四个关键方面衡量模型性能:文本忠实度、上下文利用率、韵律和延迟,从客观和主观指标两个方面进行全面的评估。

客观指标

传统基准,例如词错误率(WER)和说话人相似度(SIM),已经饱和,而包括 CSM 在内的现代模型现在在这些指标上实现了接近人类的表现。

词语错误率(Word Error Rate)和说话人相似度(Speaker Similarity)测试的客观指标结果显示,指标已饱和(与人类表现相匹配)。

为了更好地评估发音和上下文理解,Sesame引入了一套新的基于语音转录的基准。

  • 通过同形异义词消歧理解文本: 评估模型是否正确发音具有相同拼写的不同单词(例如,“lead” /lɛd/ 与“lead” /liːd/)。
  • 通过发音连续一致性理解音频: 评估模型是否能保持多轮语音中具有多种发音变体的特定单词的发音一致性。一个例子是“route”(/raʊt/ 或 /ruːt/),它会根据说话者所在地区和上下文而变化。

同形异义词消歧(Homograph Disambiguation)和发音一致性(Pronunciation Consistency)测试的客观指标结果,衡量每个模型正确发音的准确率百分比。下图比较了三种模型大小的客观指标结果。从同形异义词准确率和发音一致性的评估结果观察到,模型越大,性能越佳。这个结果支持了我们的假设,即缩放可以增强更真实语音的合成。

主观指标

Sesame团队使用Expresso数据集评估 CSM-Medium 生成的语音的自然度和韵律适宜性。向人类评估者展示成对的音频样本 - 一个由模型生成,另一个是真实的人类录音。听众根据 7 分偏好量表对生成的样本进行评分。

具体来说,在第一个 CMOS 研究中,提供了没有语境的生成音频和人类音频样本,并要求听众“选择哪种演绎更像人类语音”。在第二个 CMOS 研究中,提供了前 90 秒的音频和文本语境,并要求听众“选择哪种演绎更像对话的延续”。八十人受雇参与评估,平均每人对 15 个示例进行评分。

下图为Expresso 数据集上的主观评价结果。

无上下文:听众在不了解上下文的情况下选择“哪种演绎感觉更像人类语音” 。

上下文:听众在了解音频和文本上下文的情况下选择“哪种演绎感觉更适合继续对话”。

50:50 的胜负比表明听众没有明确的偏好。

上图显示了两项研究中真实人类录音与 CSM 生成的语音样本的胜率。在没有对话语境的情况下(顶部),人类评估者对生成的语音和真实语音没有明显的偏好,这表明自然度已经饱和。然而,当包含语境时(底部),评估者始终青睐原始录音。这些发现表明,在对话语音生成中,生成的语音和人类的韵律之间仍然存在明显的差距。

02.最佳实践

魔搭社区开发者第一时间部署体验了这个模型,本部分教你如何一步步在魔搭平台的notebook上运行CSM-1b模型。

step1: 申请魔搭免费实例

notebook地址:https://www.modelscope.cn/my/mynotebook

点击terminal,打开终端

step2:克隆代码

本次拉取的代码为基于gradio开发的版本,模型托管在modelscope上

git clone https://oauth2:Lj_V_qf8NsjT2RoCksjr@www.modelscope.cn/studios/sesameAILabs/csm-1b.git

step3:安装依赖

cd csm-1b
pip install -r requirements.txt

step4:运行命令

# 声明两个环境变量
export MS_TOKEN='xxxx' # MS_TOKEN 从https://www.modelscope.cn/my/myaccesstoken 获取
export WATERMARK_KEY="123 234 111 222 11"
cd csm-1b
python app.py

Github:

https://github.com/SesameAILabs/csm?tab=readme-ov-file

点击链接阅读原文,直达体验

csm-1b

目录
相关文章
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
2959 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
|
安全 开发工具 数据库
免费源码资源源码站同城搭子系统源码多人语音聊天全套源码
对于免费源码资源,可访问GitHub、GitLab、SourceForge等开源平台,或通过开发者论坛、博客获取。同城搭子系统源码涉及社交、活动管理等功能,建议从开源社区搜索或购买商业源码。多人语音聊天源码较复杂,可在GitHub等平台搜索开源项目,或使用第三方SDK。务必注意版权、安全及技术支持。
746 1
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
1768 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
6月前
|
编解码 监控 测试技术
《3D可交互道具开发痛点解决:轻量化建模与解耦式逻辑实践》
本文围绕古风开放世界3D可交互道具开发,聚焦“视觉精度”与“性能消耗”的矛盾,分享轻量化建模与解耦式逻辑集成的实践方案。作者针对陶罐、木箱等道具,通过“结构分层优化+贴图智能复用+LOD动态适配”实现轻量化,将移动端单场景道具内存占用降至80MB以下;采用“模型渲染+交互触发+状态管理”组件化架构解耦逻辑,道具迭代效率提升60%;结合差异化碰撞体设计、跨平台动态适配优化性能与体验,解决加载延迟、闪退等问题。最终形成可复用开发规范,为开放世界可交互元素开发提供参考,助力平衡视觉表现、运行性能与开发效率。
445 3
|
12月前
|
机器学习/深度学习 人工智能 编解码
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。
3248 2
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
|
7月前
|
Java 开发者 Python
2025年高教社杯C题——NIPT 的时点选择与胎儿的异常判定全国大学生数学建模(思路、代码、论文)
2025年高教社杯C题——NIPT 的时点选择与胎儿的异常判定全国大学生数学建模(思路、代码、论文)
538 0
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
4733 8
|
机器学习/深度学习 人工智能 安全
魔搭社区模型速递(3.9-3.15)
魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
394 1

热门文章

最新文章