统一多模态Embedding, 通义实验室开源GME系列模型

简介: 随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

01.背景

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。

当前,多模态检索主要依赖于Embedding模型,如文本领域的BGE、GTE、E5,以及跨模态的CLIP模型。这些模型在单模态和跨模态相关性建模方面表现出色,但在复杂场景和组合搜索需求下,往往需要部署多个独立模型,或通过OCR和生成模型将视觉素材转换为文本,再进行检索。这不仅增加了系统的复杂度,还可能导致信息丢失。

02.GME统一多模态表征

为解决上述问题,通义实验室推出了GME(General MultiModal Embedding)统一多模态表征模型。GME将各种模态的数据整合到一个共享的语义空间中,使不同模态的数据能够直接比对和检索,显著提升了信息检索的效率和精准度。

GME

图1 不同模态数据高维空间统一表征示意图

GME基于Qwen2-VL多模态大语言模型构建,采用对比学习的方法进行训练。每个训练样本包含一个查询、一个相关候选项及多组无关候选项,覆盖文本、图像及图文组合等多种数据类型。通过指令调优,GME能够适应不同的检索任务,比如视觉问答(VQA)等,进一步增强了模型的表征能力。

在训练数据方面,GME不仅利用了丰富的单模态和跨模态数据,还通过大模型生成技术,合成了海量的混合模态相关性数据。这种数据增强策略确保了GME在各种检索场景下的优异表现。

图2 基于MLLM的多模态Embedding模型架构

统一多模态检索评测 (UMRB)

为系统评估模型在多种模态检索场景下的表现,GME作者团队构建了一个统一多模态检索评测数据集,命名为“通用多模态检索基准”(Universal Multimodal Retrieval Benchmark,UMRB)。该Benchmark包含47个评测子集,覆盖广泛的多模态检索任务。这些子集主要来源于之前针对不同子场景或子任务构建的专用数据集。UMRB包括以下几类数据:

1、BEIR评测集[5]:用于文本到文本的检索场景。

2、M-BEIR数据集:聚焦于视觉相关的检索场景。

3、混合模态数据集:涵盖M-BEIR未覆盖的检索任务。

4、文本到视觉文档搜索数据集(如ViDoRe[4]):扩展评测数据的覆盖范围,确保对模型通用性的全面评估。

在UMRB评测中,GME-Qwen2-VL系列模型表现优异。2B和7B规模的GME模型均超越了此前的基线模型,验证了其在单模态、跨模态及混合模态检索任务中的有效性。此外,GME在纯文本检索和富文本图片检索上也展现出强大的能力。在BEIR文本检索评测中,尽管多模态嵌入模型在文本任务上略逊于专门的纯文本模型,但GME在富文本图片检索(如论文PDF、财报等)中,无需经过OCR识别即可直接进行高效检索,取得了显著优势。

表3 UMRB评测结果

表4 ViDoRe LeaderBoard

03.模型使用方法

GME模型是通义基于多模态预训练大模型构建多模态Embedidng模型进行的初步探索,当前版本还有许多提升空间和技术改进方向。基于Qwen2-VL系列模型训练的General MultiModal Embedding(GME)系列模型现已在ModalScope平台开源,欢迎感兴趣的同学体验、交流和分享。通义实验室将继续致力于多模态信息处理与检索技术的创新与优化,推动信息检索、多模态RAG的发展与应用落地。

模型地址

gme-Qwen2-VL-2B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-2B-Instruct

gme-Qwen2-VL-7B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-7B-Instruct

04.阿里云多模态Embedding模型服务

通义实验室也在阿里云百炼大模型平台上推出推理性能更佳、垂直领域检索效果更优秀的公共云多模态Embedding模型服务multimodal-embedding-v1, multimodal-embedding-v1模型服务提供文本、图片、视频三种模态的表征能力,详情参考阿里云百炼大模型服务平台模型服务:

多模态Embedding模型服务

https://help.aliyun.com/zh/model-studio/developer-reference/multimodal-embedding-api-reference?spm=a2c4g.11186623.0.0.321c1d1cqmoJ5C

05.技术详解分享

点击链接阅读原文:GME多模态向量-Qwen2-VL-2B

目录
相关文章
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
508 2
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
502 120
|
5月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1179 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
4月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1181 2
|
4月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
|
5月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1035 109

热门文章

最新文章