MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

技术合作:清华大学、腾讯AI实验室和香港中文大学联合开发。
功能特点:超低比特率下的音乐压缩与高保真重建。
应用场景:在线音乐流媒体服务、音乐下载、语言模型建设等。

正文(附运行示例)

MuCodec 是什么

公众号: 蚝油菜花 - MuCodec

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器。它能够实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,使用RVQ技术进行特征离散化,并通过流匹配方法重建Mel-VAE特征。最终,通过预训练的Mel-VAE解码器和HiFi-GAN生成重建后的音乐。

MuCodec能够在0.35kbps至1.35kbps的比特率下达到业界领先的压缩效率和音质。

MuCodec 的主要功能

  • 音乐压缩:在极低的比特率下对音乐进行有效压缩,支持0.35kbps的超低比特率。
  • 音乐重建:在超低比特率下,能够重建出高保真的音乐。
  • 特征提取:使用MuEncoder提取音乐的声学和语义特征,捕捉音乐的本质特性。
  • 离散化处理:基于RVQ(Residual Vector Quantization)技术对提取的特征进行离散化处理,便于压缩。
  • 流匹配重建:使用流匹配方法重建Mel-VAE特征,实现更精细的音频重建。
  • 双比特率支持:能够在低比特率(0.35kbps)和高比特率(1.35kbps)下工作,提供灵活的应用选择。

MuCodec 的技术原理

  • MuEncoder:作为特征提取器,基于音乐的两个关键方面——人声和背景音乐,提取声学和语义特征。
  • 两阶段训练
    • 第一阶段:使用掩码语言模型(Mask Language Model)约束学习预测掩码区域,基于未掩码的语音信号,让MuEncoder能感知上下文信息,增强表征能力。
    • 第二阶段:引入重建和歌词识别约束,包括Mel频谱图和CQT(Constant-Q Transform)特征的重建,及确保提取的特征包含语义信息的歌词识别。
  • RVQ(Residual Vector Quantization):选择RVQ来离散化MuEncoder特征,基于残差过程压缩表示,并用级联码本提供更精细的近似。
  • 流匹配:使用基于流匹配的方法进行重建,这种方法相比GAN(Generative Adversarial Networks)方法训练更稳定,且需要更少的训练步骤就能在超低比特率重建任务中取得更好的结果。流匹配用离散化的MuEncoder表示作为条件,基于Diffusion Transformer进行细粒度重建。
  • Mel-VAE解码器和HiFi-GAN:重建的Mel频谱图通过预训练的Mel-VAE解码器恢复,最终用预训练的HiFi-GAN生成重建后的音乐。

如何运行 MuCodec

安装依赖

使用Python 3.8.12,通过以下命令安装必要的依赖:

pip install -r requirements.txt

下载模型

模型检查点已保存在Hugging Face上,地址为:https://huggingface.co/yaoxunxu/mucodec。请将模型下载并保存到以下目录:

  • audioldm_48k.pth 保存到 tools 文件夹。
  • muq.pt 保存到 muq_dev 文件夹。
  • mucodec.pt 保存到 ckpt 文件夹。

确保所有三个检查点都已完全下载,文件路径应为:

tools/audioldm_48k.pth
muq_dev/muq.pt
ckpt/mucodec.pt

运行推理

使用以下命令运行推理:

python3 generate.py

test_wav 文件夹中提供了一个示例歌曲 test.wav,默认输入路径为 test_wav/test.wav,重建后的音频输出路径为 reconstruct/test.wav

generate.py 文件中,实现了多个函数以方便音乐压缩和重建过程。可以使用 sound2code 函数从音频获取压缩后的令牌,并使用 code2sound 函数从令牌重建音频。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
机器学习/深度学习 算法 图形学
华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频
【7月更文挑战第17天】华为腾讯联合开源AniPortrait,技术利用音频和图片生成栩栩如生的说话视频。通过音频分析面部表情,结合扩散模型与运动模块创建2D动画,实现自然的肖像动效。虽有高质量表现,但尚处研究阶段,面临隐私、伦理及应用局限性挑战。[论文链接](https://arxiv.org/abs/2403.17694)**
99 5
|
5月前
|
API Android开发
|
7月前
|
Web App开发 人工智能
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
935 3
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
|
人工智能 自然语言处理 算法
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT爆火!马云回国阿里推出通义千问 为何Adobe Firefly引关注
ChatGPT爆火!马云回国阿里推出通义千问 为何Adobe Firefly引关注
ChatGPT爆火!马云回国阿里推出通义千问 为何Adobe Firefly引关注
|
数据采集 机器学习/深度学习 人工智能
全球首个 3D 版 AI 合成主播亮相
AI 合成主播已不稀奇,但能走动、做手势、换装的 3D 版 AI 主播,「新小微」是全球第一个。
1436 0
全球首个 3D 版 AI 合成主播亮相
|
机器学习/深度学习 人工智能 开发框架
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
198 0
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
|
人工智能 数据挖掘 数据处理
|
双11 人工智能
双11 AI LAB“全息直播2+2
#看直播,享特惠# 喜迎双十一,阿里云AI LAB特别推出“全息直播2+2”活动: 不仅有最新鲜的人工智能界黑科技, 还有产品及解决方案特惠等你来拿! 全息无限,智享未来!
2361 0
双11 AI LAB“全息直播2+2

热门文章

最新文章