秒变莫扎特、贝多芬,Facebook提出完美转换音乐风格的神经网络

简介:

Facebook人工智能实验室(FAIR)的研究人员近日发布了一个能够将音乐从一种风格、流派或乐器转换成另一种的神经网络。很快,你可以不用自己吹圆号,你可以直接吹口哨给AI,它会把你的口哨歌变成你理想中的交响乐或舞曲。

AI需要一个输入,比如将一首交响乐团演奏的巴赫作为输入 ,然后将其转换为其他风格,例如,贝多芬风格的钢琴演奏的同一首曲子。

下面的音频展示了多个不同音乐流派的转换,不看字幕,你能听出来哪些是原版音乐,哪些是AI生成的吗?

91f259822e9ba074551bf46ead7c8beaa012ac1a

FAIR是第一个利用神经网络,用无监督学习的方法重建高保真音乐的AI研究团队。

研究团队在论文中写道:

据我们所知,我们的结果的表现是前所未闻的。当被要求将一种乐器转换成另一种乐器时,我们的网络的表现与专业的音乐家不相上下或略逊一筹。很多时候,人们很难分辨哪个是原始音频文件,那个是AI模拟另一种的乐器的输出。

这样令人难以置信的逼真度是通过教一个神经网络如何自动编码音频实现的。就AI而言,它只是将一堆噪音变成听起来不同的另一堆噪音——但不要称之为风格迁移。

ae74baba3a8d19b3d66ff23a2b35e39598c38cbb

图1:网络架构

研究团队说:“我们将这个工作与风格迁移区分开来,并且不尝试使用风格迁移的方法,因为我们认为,钢琴演奏的旋律与合唱团所唱的旋律不同,除了音质上的不同之外。这个映射必须在更高层级进行,并且修改也不是简单的局部修改。”

9a4102fd5bf8b107ea66d0776796e491caea534c

AI转换音乐风格的结果质量评估

FAIR使用的方法是一种复杂的自动编码方法,它能让网络处理来自训练中从未处理过的输入音频。 它不是尝试匹配音高,或记忆音色,而是一种无监督的学习方法,使用高级语义解释。

可以说这是过去几年里关于“人工智能能做到多好”的另一个例子。其他音乐AI的例子更像是制造噪音,它们制造的大多更像是抽象的声音,可以被合理地解释为音乐,但离真正的音乐仍然很远。我们认为,这是第一个可能被误认为是真人演奏的音乐AI。


原文发布时间为:2018-05-24

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:秒变莫扎特、贝多芬,Facebook提出完美转换音乐风格的神经网络

相关文章
|
计算机视觉
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
463 0
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
385 5
|
数据采集 存储 Scala
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容
本文介绍了如何使用Scala和Fetch库下载Facebook网页内容,同时通过爬虫代理服务(以亿牛云为例)绕过网络限制。代码示例展示了配置代理服务器、多线程爬取及内容存储的过程。注意实际应用时需替换代理服务器配置和目标URL,并考虑应对复杂的反爬虫机制。此方法兼顾匿名性和效率。
304 3
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容
|
机器学习/深度学习 存储 计算机视觉
CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术
CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术
282 0
|
机器学习/深度学习 人工智能 算法
微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型
微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型
925 0
|
机器学习/深度学习 编解码 数据可视化
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
367 0
|
机器学习/深度学习 编解码 vr&ar
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
505 0
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
313 0
|
机器学习/深度学习 编解码 数据挖掘
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
348 0
|
编解码
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
Facebook提出FP-NAS:搜索速度是EfficientNet的132倍且精度更高(文末获取论文)(二)
293 0

热门文章

最新文章