统一多模态Embedding, 通义实验室开源GME系列模型

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

01.背景

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。

当前,多模态检索主要依赖于Embedding模型,如文本领域的BGE、GTE、E5,以及跨模态的CLIP模型。这些模型在单模态和跨模态相关性建模方面表现出色,但在复杂场景和组合搜索需求下,往往需要部署多个独立模型,或通过OCR和生成模型将视觉素材转换为文本,再进行检索。这不仅增加了系统的复杂度,还可能导致信息丢失。

02.GME统一多模态表征

为解决上述问题,通义实验室推出了GME(General MultiModal Embedding)统一多模态表征模型。GME将各种模态的数据整合到一个共享的语义空间中,使不同模态的数据能够直接比对和检索,显著提升了信息检索的效率和精准度。

GME

图1 不同模态数据高维空间统一表征示意图

GME基于Qwen2-VL多模态大语言模型构建,采用对比学习的方法进行训练。每个训练样本包含一个查询、一个相关候选项及多组无关候选项,覆盖文本、图像及图文组合等多种数据类型。通过指令调优,GME能够适应不同的检索任务,比如视觉问答(VQA)等,进一步增强了模型的表征能力。

在训练数据方面,GME不仅利用了丰富的单模态和跨模态数据,还通过大模型生成技术,合成了海量的混合模态相关性数据。这种数据增强策略确保了GME在各种检索场景下的优异表现。

图2 基于MLLM的多模态Embedding模型架构

统一多模态检索评测 (UMRB)

为系统评估模型在多种模态检索场景下的表现,GME作者团队构建了一个统一多模态检索评测数据集,命名为“通用多模态检索基准”(Universal Multimodal Retrieval Benchmark,UMRB)。该Benchmark包含47个评测子集,覆盖广泛的多模态检索任务。这些子集主要来源于之前针对不同子场景或子任务构建的专用数据集。UMRB包括以下几类数据:

1、BEIR评测集[5]:用于文本到文本的检索场景。

2、M-BEIR数据集:聚焦于视觉相关的检索场景。

3、混合模态数据集:涵盖M-BEIR未覆盖的检索任务。

4、文本到视觉文档搜索数据集(如ViDoRe[4]):扩展评测数据的覆盖范围,确保对模型通用性的全面评估。

在UMRB评测中,GME-Qwen2-VL系列模型表现优异。2B和7B规模的GME模型均超越了此前的基线模型,验证了其在单模态、跨模态及混合模态检索任务中的有效性。此外,GME在纯文本检索和富文本图片检索上也展现出强大的能力。在BEIR文本检索评测中,尽管多模态嵌入模型在文本任务上略逊于专门的纯文本模型,但GME在富文本图片检索(如论文PDF、财报等)中,无需经过OCR识别即可直接进行高效检索,取得了显著优势。

表3 UMRB评测结果

表4 ViDoRe LeaderBoard

03.模型使用方法

GME模型是通义基于多模态预训练大模型构建多模态Embedidng模型进行的初步探索,当前版本还有许多提升空间和技术改进方向。基于Qwen2-VL系列模型训练的General MultiModal Embedding(GME)系列模型现已在ModalScope平台开源,欢迎感兴趣的同学体验、交流和分享。通义实验室将继续致力于多模态信息处理与检索技术的创新与优化,推动信息检索、多模态RAG的发展与应用落地。

模型地址

gme-Qwen2-VL-2B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-2B-Instruct

gme-Qwen2-VL-7B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-7B-Instruct

04.阿里云多模态Embedding模型服务

通义实验室也在阿里云百炼大模型平台上推出推理性能更佳、垂直领域检索效果更优秀的公共云多模态Embedding模型服务multimodal-embedding-v1, multimodal-embedding-v1模型服务提供文本、图片、视频三种模态的表征能力,详情参考阿里云百炼大模型服务平台模型服务:

多模态Embedding模型服务

https://help.aliyun.com/zh/model-studio/developer-reference/multimodal-embedding-api-reference?spm=a2c4g.11186623.0.0.321c1d1cqmoJ5C

05.技术详解分享

点击链接阅读原文:GME多模态向量-Qwen2-VL-2B

相关文章
|
28天前
|
人工智能 测试技术 开发者
通义发布最强开源多模态推理模型QVQ!
通义发布最强开源多模态推理模型QVQ!
459 18
|
1月前
|
人工智能 文字识别 语音技术
Megrez-3B-Omni: 首个端侧全模态理解开源模型
Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。
Megrez-3B-Omni: 首个端侧全模态理解开源模型
|
1月前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
1月前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
82 11
FlagEvalMM:智源开源的多模态模型评测框架
|
2月前
|
人工智能 API
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch,该框架具备自适应规划能力,能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,从而提升检索效率和准确性。
317 5
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
|
2月前
|
机器学习/深度学习 人工智能 安全
千问团队开源会思考的QwQ模型,这模型成精了!
QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)
千问团队开源会思考的QwQ模型,这模型成精了!
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
7月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
商汤自研的通用Embedding模型Piccolo2
【6月更文挑战第19天】商汤Piccolo2模型**是其新推出的通用Embedding技术,通过多任务混合损失训练提升泛化能力,在CMTEB基准测试中刷新纪录。模型动态调整向量维度与使用MRL方法增强语义理解,但可能增加计算成本,且有观点认为其改进非革命性。[论文链接](https://arxiv.org/abs/2405.06932)
179 1
|
8月前
|
编解码 人工智能 物联网
CogVLM2: 智谱开源新一代多模态大模型!
智谱·AI推出了新一代 CogVLM2 系列模型,并开源了使用 Meta-Llama-3-8B-Instruct 构建的两个模型。 与上一代CogVLM开源模型相比,CogVLM2系列开源模型有了很多改进...

热门文章

最新文章