如果声音可以更改,你最想改变什么?
语言,声调,音色,情绪,甚至全凭想象,「无中生有」创造一个世界上完全不存在的声音……这是可能实现的目标吗?
当 VoxCPM 2 可以让《哆啦 A 梦》开始讲四川话,全过程 0 人类配音师,答案无需赘述——
📎0bc3decfgaaeviaeojwr2nuvigodkmmqiuya.f10002.mp4
中国特色方言,音色设计、通用音色可控(尤其是语音克隆),48k 高音质、高表现力……此前,海内外已开源的 TTS 语音模型往往需要多个模型才能实现上述所有功能,而面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室研发升级的 VoxCPM 2 只用一个 2B 语音基础模型就集成了所有。
Demo体验链接:
https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo
不仅如此,相比 VoxCPM 1 只有中英双语两种语言,VoxCPM 2 在多语种上的表现也有了极大改进——覆盖全球 30 国语言,尤其是东南亚主流 8 国语种,为东南亚出海提供了极大便利。
以面壁智能「小钢炮」广告片为例,VoxCPM 2为其创作的东南亚多国语言配音信手拈来,告别「机械音」的同时更有接地气的满满活人感:
📎0bc34iavqaabzaae356uabuvdywdldracwaa.f10002.mp4
一个 2B 模型,搞定视频创作、播客、配音、有声书、出海以及各大冲浪高手的声音需求,而且 开源、免费。
四般武艺集于一身
在语音基础模型上,面壁智能同样遵循高效训练的「密度法则」(Densing Law),追求在尽可能小的参数规模上实现具有尽可能高的知识密度。VoxCPM 2 凭借仅 2B 的小尺寸,在语音生成上实现了惊人效果。
主要表现为将多语种、音色设计、通用音色可控与高音质&高表现力融于一体,为开发者与 AI 语音应用爱好者提供了广阔的开拓空间。
01 全球通:30国语言+9大方言
VoxCPM 2 支持全球 30 种主流语言,尤其在东南亚主流语种上做了别开生面的研发升级,覆盖8国主流语言,包括 越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。
效果如何?可以看以下案例:
东南亚版《甄嬛传》滴血认亲名场面,泰语、越南语丝滑切换:
📎0bc34iceiaaefaafekorzvuvjywditrairaa.f10002.mp4
除了「国际范」,VoxCPM 2 在模型训练上也发挥了国产大模型团队的独特研发视角,掌握了 9 大中国方言,包括四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语,让你的语音 AI 不仅是「Tony」、也是「大壮」,不仅是「Lisa」、也可以是「翠花」。
02 百变声优:音色设计,文字即声音
在 VoxCPM 2 中,如果不想暴露真人声音,也找不到合适的配音师,即使没有参考声音,也可以根据你的想象创造出专属于你的、独一无二的「百变声优」。
为此,你只需要动动手指头,在 VoxCPM 2 上输入一段文字描述,对你所想象的声音音色、情绪、性别、年龄等等提出要求,VoxCPM 2 就能凭空创造出一个全新的音色。
让 VoxCPM 2 一口气生成 7 个音色,并让他们上演武侠大片:
📎0bc3kqdnmaagyuamgnwtezuvmvgd2zkanvqa.f10002.mp4
03 千人千面:通用音色可控
海内外大多语音模型在进行声音克隆时,仅支持少数几种固定音色的控制。为了打破这一限制,VoxCPM 2 采取了非主流的扩散自回归连续表征(Continuous Representation)技术路线,实现了 真正意义上的通用音色可控。
相比传统 Token-based 的方法,扩散自回归架构可以保留更多的声学信息,使得声音克隆不再是生硬的拼凑,而是无比拟真、高度还原的语音再生。无论是情感起伏、情绪变化,乃至细微的呼吸声,都能最大相似度还原。
《西游记》女儿国国王:
《舌尖上的中国》叉烧介绍:
04 影视级配音:高音质、高表现力
采样率是评价音质的直接标准:8000Hz 仅能满足通话,16000Hz 只能达到清晰音质,而 VoxCPM 2 直接提升到了 48000Hz,进入高保真(Hi-Fi)级别!
VoxCPM 2 的高音质,让 AI 生成的语音可以应用于更广泛、对音质要求更高的领域,如影视配音。同时,声音的情感穿透力也会大幅提升。
《如果国宝会说话》英文版:
📎0bc3i4bhgaacxuago5oxnfuver6dondqe4ya.f10002.mp4
在高音质生成与还原下,声音的情绪、情感也经得起真实的考验,让人声临其境:
好用,开源!
VoxCPM 2 的出现,并不是为了取代谁,而是为了 解放每一个需要它的人。
为此,面壁智能坚持开源,并在开发者友好上下了苦功。
VoxCPM 2 支持原生 Torch 推理、全参数微调和 LoRA 微调。无论你是拥有顶级算力的企业,还是只有一个小破本的个人小白,都有成熟的生态支持你「一键运行」。
VoxCPM 2 现已全面上线并同步开源。我们邀请全球开发者与创作者,一同开启高保真语音的新纪元。
准备好用声音搞点大事情了吗?点击下方开源、体验与下载链接,去创造属于你的声音世界吧!
➤ 体验链接
🔗 https://voxcpm.modelbest.cn/
🔗 https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo
➤ GitHub
🔗 https://github.com/OpenBMB/VoxCPM/
➤ 魔搭社区
🔗 https://modelscope.cn/models/OpenBMB/VoxCPM2