ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

简介: ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。

基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为⼀个多模态⼤模型。mPLUG-2 的研究论文已被 ICML 2023 接收。



研究背景

⼤规模预训练基础模型是⼈⼯智能领域的新兴范式,涉及语⾔、视觉和多模态等多个领域。随着 Transformer 体系结构的⼴泛成功,近年来已经出现了语⾔、视觉和多模态预训练的⼤融合趋势。

该趋势下的⼀条主要线路是采⽤统⼀的序列⽣成框架来统⼀任务和模态,如 T5、OFA 和 Flamingo 等。另⼀条主要线路则是将所有任务都视为实例区分 (instance discrimination),并采用纯编码器架构,如 BERT、Florence 和 BEIT-3 模型。

以上主流基础模型提出为多模态数据建模共享的单⼀网络 (single network),以此来利用模态协作的信息,如 Flamingo。然而,由于不同模态涉及到的任务的巨⼤差异,这种策略将⾯临模态纠缠的问题,多个模态可能会相互干扰,特别是当存在多种模态和任务时。单模块基础模型难以平衡模态协作的收益和模态纠缠对多个跨模态下游任务的影响。

为了缓解这个挑战,在这项⼯作中,阿⾥达摩院团队引⼊了⼀种新的多模态基础模型的统⼀范式,如下图 1 所示。它采⽤基于模块的⽹络设计来考虑到模态协作和模态纠缠之间的平衡。mPLUG-2 的研究者设计了特定的共享功能模块 (functional modules),以⿎励模态协作,同时保留特定于模态的模块 (modality-specific modules) 以解决模态纠缠的问题。


基于模块化的设计,不同的模块可以灵活地选取和组合,以适应⼤量的单模态和多模态的理解和⽣成任务。支持的下游任务的详细信息在表 1 中给出,可以看到 mPLUG-2 可以处理多种跨⽂本、图像和视频的不同类型的下游任务。下表 2 中也提供了不同的下游任务所需要的模块组合。



方法概览



模型框图如上图 2 所示:(1) mPLUG-2 设计了⼀个统⼀的双 (dual) 视觉编码器模块,其中视频与图输⼊共享的标准 Transformer 模块,⽤于建模空间信息。局部时域建模模块⽤于视频相关任务的时域关系建模。(2) mPLUG-2 设计了⼀个新颖的通⽤层模块 ( universal layers module),⽤于作不同模态之间的枢纽,其通过共享⾃注意⼒模块将视觉和语⾔模态投影到共同的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤额外的交叉注意⼒模块将通⽤视觉表示 (universal vision representation) 与原始细粒度视觉表示融合。详细的模块设计如图 2 所示。最后,mPLUG-2 的不同模块通过任务和模态指令 (task and modality instructions) 在单模态和跨模态任务上进⾏联合预训练。在推理过程中,mPLUG-2 可以使⽤模块化 Transformer 架构为各种单模态和交叉模态任务选择不同的模块。

mPLUG-2 的卓越性能
mPLUG-2 在 30 多个有挑战性的单模态和跨模态理解和⽣成基准测试中评估了 mPLUG-2 的性能,它在相似的模型大小和数据规模下取得了最先进或有竞争力的结果。

这里展示几个有代表性的实验结果:

多模态任务

研究者在多模态理解型和生成型的相关任务上评测 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,实验结果表明其可以得到 SOTA 的性能。





纯语言任务
研究者发现,相比于专⽤语⾔预训练模型和其他多模态预训练模型,mPLUG-2 在 GLUE benchmark 上可以取得可⽐的性能。实验结果证明了使⽤ universal layer 做模态协作的有效性。


纯视觉任务

研究者发现,mPLUG-2 在纯视觉任务上,如行为识别,图像分类任务,可以取得具有竞争力的性能。



消融:用于模态协作的通用层 (universal layer) 的作用有多大?

研究者在 baseline 的基础上,添加他们设计的通⽤层 universal layer。可以发现,通过鼓励模态协作,在单模态或者跨模态任务上,都会有明显的性能提升,证明了通⽤层 universal layer 的有效性。



另外,研究者还发现,⿎励模态协作的通⽤层 universal layer 可以得到更小的 modality gap。


更多技术和实验细节请参阅原论⽂。

相关文章
|
5月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1035 109
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
508 2
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
502 120
|
6月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
751 23
|
6月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1235 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
865 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
5月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1179 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章