7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型

简介: 7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型


本周重要论文包括图灵奖得主 Yann LeCun 世界模型的首项研究,以及 Meta 开源的文本生成音乐模型 MusicGen。


目录:

  1. Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
  2. Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples
  3. Disentangling Writer and Character Styles for Handwriting Generation
  4. INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
  5. Reverse Engineering Self-Supervised Learning
  6. VideoComposer: Compositional Video Synthesis with Motion Controllability
  7. Simple and Controllable Music Generation
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture


摘要:让 AI 像人类一样学习和推理,这是人工智能迈向人类智能的重要一步。图灵奖得主 Yann LeCun 曾提出自监督 + 世界模型的解决方案,如今终于有了第一个实实在在的视觉模型 ——I-JEPA。如下图所示,I-JEPA 使用单个上下文块来预测源自同一图像的各种目标块的表征。



推荐:LeCun 世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源。

论文 2:Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples


摘要:本文介绍的是一篇收录于 ICML 2023 Oral 的论文,论文由位于上海交通大学的上海市可扩展计算与系统重点实验室、纽约大学和贝尔法斯特女王大学的华扬老师共同完成。论文的共同一作是即将攻读南加州大学博士学位的梁楚盟和上海交通大学的研究生吴晓宇。



推荐:给图片悄悄加上像素级水印:防止 AI「抄袭」艺术作品的方法找到了。
论文 3:Disentangling Writer and Character Styles for Handwriting Generation




摘要:本文中,来自华南理工大学、新加坡国立大学、香港理工大学以及琶洲实验室的研究者们联合提出一种有趣的手写文字生成方法,仅需提供少量的参考样本即可临摹用户的书写风格,进而生成符合该风格的任意文字。



推荐:会模仿笔迹的 AI,为你创造专属字体,入选 CVPR 2023。

论文 4:INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models


摘要:这么多年来,指令调优大语言模型的性能到底怎么样呢?本研究提出了一个全新的评估套件,对它们在解决问题、写作和对齐人类价值观等方面进行了全面评估,结果可能超乎你的预料。研究者在下表 3 中提供了开源指令模型的整体概述。



推荐:四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现。

论文 5:Reverse Engineering Self-Supervised Learning


摘要:自监督学习可以利用辅助任务(pretext)无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。近日,图灵奖得主 Yann LeCun 在内的多位研究者发布了一项研究,宣称对自监督学习进行了逆向工程,让我们得以了解其训练过程的内部行为。

为了直观地理解 SSL 训练,下图 1 通过 UMAP 可视化展示了网络的训练样本的嵌入空间,其中包含训练前后的情况并分了不同层级。



推荐:Yann LeCun 团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的。

论文 6:VideoComposer: Compositional Video Synthesis with Motion Controllability


摘要:在 AI 绘画领域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引领了可控图像生成的理论发展。但是,业界在可控视频生成上的探索依旧处于相对空白的状态。相比于图像生成,可控的视频更加复杂,因为除了视频内容的空间的可控性之外,还需要满足时间维度的可控性。基于此,阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了 VideoComposer,即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。

该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能,均获得满意的结果,证明了 VideoComposer 通用性。



推荐:时间、空间可控的视频生成走进现实,阿里大模型新作 VideoComposer 火了。

论文 7:Simple and Controllable Music Generation


摘要:年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费使用。

如下输入周杰伦《七里香》歌词中的前两句「窗外的麻雀在电线杆上多嘴,你说这一句 很有夏天的感觉」(支持中文)。

,时长00:12


推荐:Meta 开源文本生成音乐大模型,我们用《七里香》歌词试了下。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

10 NLP Papers19:46

本周 10 篇 NLP 精选论文是:
1. Can Large Language Models Infer Causation from Correlation?.  (from Bernhard Schölkopf)2. Developing Speech Processing Pipelines for Police Accountability.  (from Dan Jurafsky)3. SqueezeLLM: Dense-and-Sparse Quantization.  (from Michael W. Mahoney, Kurt Keutzer)4. Morphosyntactic probing of multilingual BERT models.  (from Noah A. Smith)5. ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery.  (from Kai-Wei Chang, Majid Sarrafzadeh)6. Language models are not naysayers: An analysis of language models on negation benchmarks.  (from Timothy Baldwin)7. Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation.  (from Jingbo Zhu)8. Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation.  (from Rui Xu)9. Word sense extension.  (from Lei Yu)10. Instruction Tuned Models are Quick Learners.  (from Chitta Baral)

相关文章
|
Ubuntu Linux 网络安全
ubuntu22.04操作系统的安装
ubuntu22.04操作系统的安装
1664 0
ubuntu22.04操作系统的安装
|
数据采集 机器学习/深度学习 人工智能
Bert-vits2-2.3-Final,Bert-vits2最终版一键整合包(复刻生化危机艾达王)
近日,Bert-vits2发布了最新的版本2.3-final,意为最终版,修复了一些已知的bug,添加基于 WavLM 的 Discriminator(来源于 StyleTTS2),令人意外的是,因情感控制效果不佳,去除了 CLAP情感模型,换成了相对简单的 BERT 融合语义方式。
Bert-vits2-2.3-Final,Bert-vits2最终版一键整合包(复刻生化危机艾达王)
|
5月前
|
机器学习/深度学习 算法 机器人
RRT机械臂路径规划六轴B-样条(b-spline)优化研究(Matlab代码实现)
RRT机械臂路径规划六轴B-样条(b-spline)优化研究(Matlab代码实现)
405 0
|
人工智能 自然语言处理 PyTorch
InspireMusic:阿里通义实验室开源的音乐生成模型,支持文本或音频生成多种风格的音乐
阿里通义实验室开源的音乐生成技术,支持通过简单描述快速生成多种风格的高质量音乐作品。
2141 4
|
12月前
|
编解码 自然语言处理 开发者
通义音乐生成技术InspireMusic开源!
通义音乐生成技术InspireMusic开源!
897 2
|
数据处理 语音技术 项目管理
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。
517 9
人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感
|
编解码
使用媒体查询动态调整文字大小
【10月更文挑战第24天】通过使用媒体查询动态调整文字大小,我们可以更好地适应不同的屏幕环境,为用户提供更舒适的阅读体验。
|
Unix Linux Ruby
在windows和linux上高效快捷地发布Dash应用
在windows和linux上高效快捷地发布Dash应用
678 4
|
存储 人工智能 机器人
基于AI人工智能大模型下的物流运输业务场景搭建
党的二十大报告深刻阐述了我国物流运输发展事业上所获得的整体成绩,并对今后一段时期内对大数据背景下物流运输新事业,新管理,新运营进行了深度分析,研究。提出运用先进技术,智能化设备及高端产品等新型手段提高企业的高质量发展构想。为努力打造新型智慧物流,开启智能化物流打开了新的局面。 引言 随着科技的不断发展,设备的不断更新,智能化技术的不断涌现,低代码技术,人工智能AI技术等新型智能化应用逐步成为行业应用的主流模式,大数据背景下,阿里云,冀之云,宝之云等“云”技术服务平台成为了行业自动化办公应用中不可或缺的一部分,本文以人工智能AI技术在物流业行业发展中的设计与应用为例,作简要说明。
|
Python
Python中的全局变量和局部变量是什么?
在 Python 中, 全局变量与局部变量在作用域及访问权限上有着明显区别。全局变量在整个程序范围内均可访问, 如定义 `global_var` 并在函数 `func_using_global()` 内使用。局部变量仅在其定义的函数内有效, 如 `func_creating_local()` 中的 `local_var`, 在函数外访问会引发 `NameError`。
440 3