面壁开源VoxCPM 2:2B 语音基础模型 = 30国语种 + 9大方言 + 音色复刻 + 影视级音质

简介: VoxCPM 2 是面壁智能联合OpenBMB、清华语音实验室推出的开源2B语音基础模型,支持30国语言+9大方言(含四川话、粤语等),具备音色设计、语音克隆、48kHz高保真合成能力,零人工配音即可实现《哆啦A梦》讲方言等效果,免费开源,开发者友好。

如果声音可以更改,你最想改变什么?

语言,声调,音色,情绪,甚至全凭想象,「无中生有」创造一个世界上完全不存在的声音……这是可能实现的目标吗?

当 VoxCPM 2 可以让《哆啦 A 梦》开始讲四川话,全过程 0 人类配音师,答案无需赘述——

📎0bc3decfgaaeviaeojwr2nuvigodkmmqiuya.f10002.mp4


中国特色方言,音色设计、通用音色可控(尤其是语音克隆),48k 高音质、高表现力……此前,海内外已开源的 TTS 语音模型往往需要多个模型才能实现上述所有功能,而面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室研发升级的 VoxCPM 2 只用一个 2B 语音基础模型就集成了所有。

Demo体验链接:

https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

不仅如此,相比 VoxCPM 1 只有中英双语两种语言,VoxCPM 2 在多语种上的表现也有了极大改进——覆盖全球 30 国语言,尤其是东南亚主流 8 国语种,为东南亚出海提供了极大便利。

以面壁智能「小钢炮」广告片为例,VoxCPM 2为其创作的东南亚多国语言配音信手拈来,告别「机械音」的同时更有接地气的满满活人感:

📎0bc34iavqaabzaae356uabuvdywdldracwaa.f10002.mp4


一个 2B 模型,搞定视频创作、播客、配音、有声书、出海以及各大冲浪高手的声音需求,而且 开源、免费


四般武艺集于一身

在语音基础模型上,面壁智能同样遵循高效训练的「密度法则」(Densing Law),追求在尽可能小的参数规模上实现具有尽可能高的知识密度。VoxCPM 2 凭借仅 2B 的小尺寸,在语音生成上实现了惊人效果。

主要表现为将多语种、音色设计、通用音色可控与高音质&高表现力融于一体,为开发者与 AI 语音应用爱好者提供了广阔的开拓空间。

01 全球通:30国语言+9大方言

VoxCPM 2 支持全球 30 种主流语言,尤其在东南亚主流语种上做了别开生面的研发升级,覆盖8国主流语言,包括 越南语泰语印尼语老挝语缅甸语柬埔寨语菲律宾语马来西亚语

效果如何?可以看以下案例:

东南亚版《甄嬛传》滴血认亲名场面,泰语、越南语丝滑切换:

📎0bc34iceiaaefaafekorzvuvjywditrairaa.f10002.mp4


除了「国际范」,VoxCPM 2 在模型训练上也发挥了国产大模型团队的独特研发视角,掌握了 9 大中国方言,包括四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语,让你的语音 AI 不仅是「Tony」、也是「大壮」,不仅是「Lisa」、也可以是「翠花」。


02 百变声优:音色设计,文字即声音

在 VoxCPM 2 中,如果不想暴露真人声音,也找不到合适的配音师,即使没有参考声音,也可以根据你的想象创造出专属于你的、独一无二的「百变声优」。

为此,你只需要动动手指头,在 VoxCPM 2 上输入一段文字描述,对你所想象的声音音色、情绪、性别、年龄等等提出要求,VoxCPM 2 就能凭空创造出一个全新的音色。

让 VoxCPM 2 一口气生成 7 个音色,并让他们上演武侠大片:

📎0bc3kqdnmaagyuamgnwtezuvmvgd2zkanvqa.f10002.mp4


03 千人千面:通用音色可控

海内外大多语音模型在进行声音克隆时,仅支持少数几种固定音色的控制。为了打破这一限制,VoxCPM 2 采取了非主流的扩散自回归连续表征(Continuous Representation)技术路线,实现了 真正意义上的通用音色可控

相比传统 Token-based 的方法,扩散自回归架构可以保留更多的声学信息,使得声音克隆不再是生硬的拼凑,而是无比拟真、高度还原的语音再生。无论是情感起伏、情绪变化,乃至细微的呼吸声,都能最大相似度还原。

《西游记》女儿国国王:

《舌尖上的中国》叉烧介绍:


04 影视级配音:高音质、高表现力

采样率是评价音质的直接标准:8000Hz 仅能满足通话,16000Hz 只能达到清晰音质,而 VoxCPM 2 直接提升到了 48000Hz,进入高保真(Hi-Fi)级别!

VoxCPM 2 的高音质,让 AI 生成的语音可以应用于更广泛、对音质要求更高的领域,如影视配音。同时,声音的情感穿透力也会大幅提升。

《如果国宝会说话》英文版:

📎0bc3i4bhgaacxuago5oxnfuver6dondqe4ya.f10002.mp4

在高音质生成与还原下,声音的情绪、情感也经得起真实的考验,让人声临其境:

好用,开源!

VoxCPM 2 的出现,并不是为了取代谁,而是为了 解放每一个需要它的人

为此,面壁智能坚持开源,并在开发者友好上下了苦功。

VoxCPM 2 支持原生 Torch 推理、全参数微调和 LoRA 微调。无论你是拥有顶级算力的企业,还是只有一个小破本的个人小白,都有成熟的生态支持你「一键运行」。

VoxCPM 2 现已全面上线并同步开源。我们邀请全球开发者与创作者,一同开启高保真语音的新纪元。

准备好用声音搞点大事情了吗?点击下方开源、体验与下载链接,去创造属于你的声音世界吧!

体验链接

🔗 https://voxcpm.modelbest.cn/

🔗 https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

GitHub

🔗 https://github.com/OpenBMB/VoxCPM/

魔搭社区

🔗 https://modelscope.cn/models/OpenBMB/VoxCPM2

点击直达模型体验:https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

目录
相关文章
|
7天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34462 17
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
19天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45287 142
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
8天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4840 20
|
1天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
1750 5
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 API 开发者
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案
阿里云百炼Coding Plan Lite已停售,Pro版每日9:30限量抢购难度大。本文解析原因,并提供两大方案:①掌握技巧抢购Pro版;②直接使用百炼平台按量付费——新用户赠100万Tokens,支持Qwen3.5-Max等满血模型,灵活低成本。
1743 5
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案

热门文章

最新文章