ONE-PEACE:探索通往无限模态的通用表征模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 过去几年里,表征模型在自然语言处理、计算机视觉、语音处理等领域取得了巨大的成功。经过大量数据学习的表征模型,不仅可以在各种下游任务上取得良好的效果,还可以作为大规模语言模型(LLM)的基座模型,为LLM提供多模态理解能力。随着多模态技术的发展,尤其CLIP[1]之后大家都意识到一个好的多模态表征模型在很多单模态任务上都会发挥着至关重要的基础模型的作用。学习了大量模态alignment的数据之后的模型逐渐在学会去理解各个模态和模态间蕴含的知识,甚至通过对大量模态的学习促进对其它模态的理解。

     但过去大部分模型,基本都把重点关注在图文数据上了,主要还是得益于社区贡献了大量高质量的如LAION[2]这类的数据集。然而如果想更进一步去理解世界,我们希望能够把全世界各种模态的信息关联在一起,实现一个不限模态(unlimited modalities)的通用表征模型。

     为此,本文探索如何构建一个能够通往无限模态的通用表征模型。我们从模型架构和预训练任务出发,设计了扩展友好的模型架构和模态无关的预训练任务:

1)扩展友好的架构。能够方便友好地扩展到不同的模态上,并且允许多模态信息的交互。

2)模态无关的任务。任务足够通用,能够应用到不同的模态上,并且不依赖于第三方模型。另外,这些任务可以同时兼顾多模态任务和单模态任务上的效果。

      基于设计的结构和任务,我们构建出了4B规模的图文音三模态通用表征模型——ONE-PEACE在语义分割、音文检索、音频分类和视觉定位几个任务都达到了新SOTA表现,在视频分类、图像分类图文检索、以及多模态经典benchmark也都取得了比较领先的结果。另外,模型展现出来新的zeroshot能力,即实现了新的模态对齐,比如音频和图像的对齐,或者音频+文字和图像的对齐,而这类数据并没有出现在我们的预训练数据集里。



  ONE-PEACE

   扩展友好的架构

    ONE-PEACE的模型架构包含3个模态适配器以及1个模态整合器。

    ●模态适配器:负责将不同模态的原始输入转换为向量。注意到这些适配器互不干涉,因此我们可以针对不同模态的特性灵活的选择适配器的结构。在本文中,我们为ONE-PEACE设计了三种轻量的模态适配器。这里Language Adaptor就是最简单的Word EmbeddingVision Adapter采用了DeiT[3]提出的hierarchical MLP,相比过去使用ResNet或者VIT成本更低,效果也比朴素的linear层要更好,Audio Adapter采用了wav2vec 2.0[4]convolutional feature extractor,并且使用额外的卷积层来提取相对位置信息。

    ●模态整合器:负责整合不同模态的信息。Follow我们之前的工作OFA,模态整合器基于Transformer架构。我们希望模型既有统一处理的部分,也有模态特定的处理部分,参照之前的工作[5, 6],我们将FFN部分设计成multiwayModality MoE)的方式,每个模态包含各自的FFN层。而在Transformer内部,主要实现了几处改动。一是GeGLU[7]的引入,相比GeLU能实现更好的效果;二是相对位置编码,实现更好的position表示;三是使用了Magneto[8]的方案,在attentionFFN均新增layernorm增加训练稳定性,四是使用LayerScale[9],同样能够提升训练稳定性。

1.png

       模态无关的任务

     ●模态间对比学习:这部分使用了类似于CLIP的训练方法,我们将其扩展到了更多的模态组合,从而实现模态和模态之间的对齐。这里我们没有遍历所有模态的两两组合,而选用文本作为中介,将图文音三种模态整合到一个语义空间中。

     ●模态内去噪对比学习:该任务可以看作是masked predictionconstrastive learning的结合,其实就是使用contrastive learning来完成masked predictiion这件事。相比于模态间对比学习,模态内去噪对比学习更注重学习模态内部的细节信息,因此该任务能让模型取得更好的微调效果。

     通过结合这两种预训练任务,模型可以同时具备优越的跨模态检索能力和微调能力。需要特别说明的是,这两种任务都是模态无关的,即它们可以应用到各种模态以及模态组合上,并且不依赖于任何额外的模型。借助扩展友好的架构和模态无关的任务,ONE-PEACE具备扩展到无限模态的潜力。

2.png

   训练

     ONE-PEACE的预训练过程分为两个阶段:图文预训练和音文预训练

在图文预训练阶段,我们使用图文对进行训练,并且只更新与图文相关的参数,如Vision-AdapterSelf-AttentionLanguage-FFN等。在该阶段,我们使用LAION-2B[12]数据进行训练,并通过一系列的数据清洗流程保留了里面质量较高的1.5B数据。在音文预训练阶段,我们引入了与音频模态相关的模块,Audio-AdapterAudio-FFN等,该阶段的训练仅更新这些音频相关的模块,其它参数则全部冻结。在该阶段,我们从多个来源收集大量的环境音数据进行训练,有关这些数据的详细信息如下表所示:

3.png

      尽管没有在图音对上进行训练,但ONE-PEACE依然通过语言作为锚点将图文音三模态整合到了一个语义空间中。因此,ONE-PEACE实际上是一个以语言为核心的模型。后续的实验表明,ONE-PEACE具备音搜图这一预训练任务中不涉及的能力,在Imagebind[11]这项工作里,这种能力也被称之为emergent zero-shot capabilities



   参数规模

     ONE-PEACE的整体参数规模为4B,得益有模态共享-分离的架构设计,ONE-PEACE也可以被拆解成各种分支来处理不同类型的任务,如拆解成Vision-Branch来处理视觉任务等,下面这张图展示了ONE-PEACE的模型配置:

4.png

     为了加速ONE-PEACE的训练,我们使用了诸如Memory-Efficient AttentionCheckpointingFusedLayerNormNvfuseBf16等训练加速技巧,有关训练的更多细节可以阅读我们的paper





    通用模型效果验证

       为了验证ONE-PEACE的能力,我们在3个模态,11个任务,16个数据集上进行了详尽的实验。作为一个三模态的表征模型,ONE-PEACE可以做的任务还有很多很多,但受限于精力,笔者实在做不动了。需要特别说明的是,ONE-PEACE这个工作的主要目的不是为了刷点,我们在benchmark上的大量实验只是为了证明这个模型在各方面都很能打,ONE-PEACE有着很大的想象空间,比如可以通过结合LLM打造三模态的MLLM,作为基础模型提供多模态特征等等。目前我们的代码和Checkpoint已经全部在Github开源,也欢迎大家接着我们的工作搞些事情。

     

     视觉任务

      图像分类

       我们首先在Imagenet-1K测试了ONE-PEACE的图像分类能力,如下图所示。在不使用私有数据的情况下,ONE-PEACE取得了89.8acc,超越了同setting下的一众模型。注意到,FD-SwinV2-G, BEiT-3, and EVA等基线模型均依赖于预训练好的CLIP辅助训练,而ONE-PEACE的预训练过程不依赖于任何的第三方模型,且其参数是完全随机初始化的。尽管如此,ONE-PEACE仍然取得了更好的效果。

5.png

     语义分割

      我们ADE20K上进行了语义分割实验,ONE-PEACE取得了63.0mIoU,超过了EVABeiT-3InternImage等一众模型,取得了新的SOTA结果。

6.png

     物体检测

      在MSCOCO上做物体检测和实例分割仅次于RevCol,并且ONE-PEACE并没有做Object365intermediate finetuning

7.png

     视频分类

      在视频分类任务的K400上,ONE-PEACE超过了诸如CoCaViT-22B等强基线模型。相比于CoCaONE-PEACE的训练步数和数据量要更少。相比于ViT-22BONE-PEACE的参数量要更少。

8.png

     语音(-文本)任务

      音文检索

       在音文检索任务,ONE-PEACE取得了新的SOTA结果,大幅度超越了之前的模型。

9.png

     音频分类 & 音频问答

      我们进一步在多个音频分类和音频问答上测试ONE-PEACE的能力。如下图所示,ONE-PEACE在这些任务上都拿到了SOTA的结果。

10.png

     图文多模态任务

      图文检索

       我们在MSCOCOFlickr30K评测ONE-PEACE的图文检索能力。在Fine-tuning setting下,ONE-PEACE超过了BEIT-3等强基线模型(注:为公平起见,表中没有列出retrieval-then-rank一类的模型)。在Zero-shot setting下,ONE-PEACE超过了CLIPFlorence等基线模型。ONE-PEACE训练的图文对要远少于CoCa6.4B vs 25.6B),这可能是其效果弱于CoCa的原因。

11.png

     视觉定位

      在视觉定位任务上,我们拿到了RefCOCO一系列数据集合上的SOTA,超过了我们之前的工作OFA。值得注意的是,OFAFIBER等基线模型都使用了Visual Genome等额外的的视觉定位数据进行训练,而ONE-PEACE仅仅只在RefCOCO/+/g上进行了Finetune。我们进一步在一张宝可梦图片上对比ONE-PEACEOFA,当直接给定宝可梦的名字时,ONE-PEACE可以正确定位具体的宝可梦,而OFA则不能正确定位,这可能是由于ONE-PEACE在预训练阶段吃下了更多的图文数据,因此其泛化能力也更好。

12.png

image.png

     图文理解

      在VQANLVR2上,ONE-PEACE也是超过了BLIP-2CoCa等强基线模型。注意到我们在两个任务上的效果都弱于BEiT-3,这可能有两个原因:1BEiT-3MSCOCOCC3MIn-domain数据上进行预训练,这通常能带来更好的微调效果;2BEiT-3引入了纯文本数据进行预训练,这可以提高模型对文本的理解能力,从而进一步提高模型的多模态理解能力。在未来的工作中,我们将考虑结合时下比较热门的LLM来提高ONE-PEACE的文本理解能力。

14.png

   涌现能力

      前文提到,ONE-PEACE只在图文对和音文对上进行训练,尽管如此,ONE-PEACE依然可以实现音频和图像之间的互相检索。如下图所示,我们通过case展示了ONE-PEACE的音搜图,音+图搜图,以及音+文搜图的能力。在给定不同的条件下,ONE-PEACE都可以召回比较相关的图像,证明了其强大的多模态检索能力。我们在论文和Github里提供了更多的Case,感兴趣的同学可以去翻看。不满足于case的同学,还可以通过我们提供的Demo来进一步体验ONE-PEACE的检索能力。

15.png

   消融实验

      我们在paper里还进行了大量的消融实验,用于说明ONE-PEACE的结构和预训练任务的有效性,ATA里就不再展开说了,感兴趣的同学可以阅读原论文。



   总结与未来工作

      本文探索如何构建一个能够通往无限模态的通用表征模型。基于扩展友好的结构和模态无关的任务,我们输出了一个4B规模的图音文三模态表征模型,ONE-PEACE。我们在一系列单模态和跨模态任务上进行了相关实验,拿下了多个视觉、语音、多模态任务的SOTA,并在emergent zero-shot retrieval上展现出了强劲的实力。

      

     其实无论是ONE-PEACE还是之前的OFA,我们团队都是在探索一种简易有效的方式,希望打造出一个能够兼容所有模态的通用AI模型。近半年来,LLM以及MLLMMulti-modal LLM)的高速发展也让我们看到了一条行之有效的捷径,即以语言为核心逐步构建一个通用AI模型。在未来的工作中,我们会围绕着LLM继续发展出更强的通用模型,包括:

      1)借助LLM,打造更强大的通用表征模型;

      2)结合LLM,打造更普适的通用生成模型。


参考文献

团队近期相关工作:

[1]. OFA: Unifying Architectures, Tasks, and Modalities through a Simple Sequence-to-Sequence Learning Framework, ICML 2022. [paper][ATA]

[2]. OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models, 2022. [paper]

[3]. Transferring General Multimodal Pretrained Models to Text Recognition, ACL 2023. [paper]

[4]. Prompt Tuning for Generative Multimodal Pretrained Models, ACL 2023. [paper]

[5]. MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition, Interspeech 2023, [paper][ATA]

[6]. Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese, 2023. [paper][ATA]

[7]. M6-OFA,通用多模态预训练升级. [ATA]



外部部分工作Reference:

[1]. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

[2]. Schuhmann C, Beaumont R, Vencu R, et al. Laion-5b: An open large-scale dataset for training next generation image-text models[J]. arXiv preprint arXiv:2210.08402, 2022.

[3]. Touvron H, Cord M, Jégou H. Deit iii: Revenge of the vit[C]//Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXIV. Cham: Springer Nature Switzerland, 2022: 516-533.

[4]. Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[5]. Bao H, Wang W, Dong L, et al. Vlmo: Unified vision-language pre-training with mixture-of-modality-experts[J]. Advances in Neural Information Processing Systems, 2022, 35: 32897-32912.

[6]. Wang W, Bao H, Dong L, et al. Image as a foreign language: Beit pretraining for all vision and vision-language tasks[J]. arXiv preprint arXiv:2208.10442, 2022.

[7]. Shazeer N. Glu variants improve transformer[J]. arXiv preprint arXiv:2002.0520

[8]. Wang H, Ma S, Huang S, et al. Foundation transformers[J]. arXiv preprint arXiv:2210.06423, 2022.

[9]. Touvron H, Cord M, Sablayrolles A, et al. Going deeper with image transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 32-42.

[10]. Yu J, Wang Z, Vasudevan V, et al. Coca: Contrastive captioners are image-text foundation models[J]. arXiv preprint arXiv:2205.01917, 2022.

[11]. Girdhar R, El-Nouby A, Liu Z, et al. Imagebind: One embedding space to bind them all[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15180-15190.

[12]. Schuhmann C, Beaumont R, Vencu R, et al. Laion-5b: An open large-scale dataset for training next generation image-text models[J]. arXiv preprint arXiv:2210.08402, 2022.

相关文章
|
9月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
133 2
|
9月前
|
人工智能 算法
生成模型不适合处理视频,AI得在抽象空间中进行预测
生成模型不适合处理视频,AI得在抽象空间中进行预测
298 0
生成模型不适合处理视频,AI得在抽象空间中进行预测
|
9月前
|
存储 人工智能 自然语言处理
|
4月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
88 3
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
101 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队提出“超连接”创新方法,突破残差连接局限,引入可学习的深度和宽度连接,动态调整网络层间连接强度。该方法在大型语言模型预训练中实现最快收敛速度,加速80%,并在图像生成、分类等任务中表现出色,显著提升准确率和稳定性。论文链接:https://arxiv.org/pdf/2409.19606
71 5
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
281 0
|
4月前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
195 2
|
7月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
8月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
80 3

热门文章

最新文章