【OpenVI-图搜系列—多模态检索实战篇】基于表征大模型的多模态检索系统

简介: 信息检索产品几乎是人们生活中必不可少的工具,经常用的有文本搜文本、图片搜图片等应用。以上任务均为单模态的检索。而多模态检索则处理涵盖原有的单模态检索任务以外,也包含跨模态检索任务,即文搜图、文搜视频等任务。要实现这一任务,则需要底层的表征模型具备图文对齐的能力,换句话说,要实现多模态检索,表征模型应实现将不同模态信息的特征映射到同一个域内,从而实现不同模态之间的相互检索。CLIP的多模态技术出现以来,给多模态检索领域带来了新的技术变革,使得实现基于通用表征大模型的大规模多模态检索系统成为可能。

表征大模型

     说起表征模型在图搜/多模态检索系统中的作用,可以用“核心作用”来形容。其主要目的是将图片和文本转化成特征向量,有了特征向量才得以进行向量检索索引的构建。模型提取的特征向量对于图片/文本等内容的表征是否贴切,直接影响着检索结果的精准度。得益于多模态技术的迅速发展,我们可以较为轻松的获取海量的图文训练对,通过基于contrastive loss的对比学习实现图文对齐训练。海量图文训练对通过弱监督对比学习的方式实现表征模型的训练是CLIP等大模型训练的一个基本思路,在这一指导思想的指引下,我们也研发了更加先进的表征大模型,其他文章中会进行介绍。由于大训练数据量和大模型参数量的加持,表征大模型相较于小模型而言,在泛化性和多任务领域有着无与伦比的优势,特别是在多模态检索领域,我们能够覆盖更加广泛地应用领域。基于阿里自研表征大模型,我们已经上线了多模态检索云产品:https://www.aliyun.com/activity/intelligent/AI-search


多模态检索系统

1.png  相较于其他的AI产品,多模态/图像检索系统的复杂度更高,涉及到串联检测、表征等多个模型以及向量引擎的联通等。为了叙述方便,下面以文搜图任务为例,进行多模态检索系统的讲解。从系统角度讲,多模态检索可以分成两个过程:入库和检索。入库旨在将图片导入到向量引擎中构建检索索引,其主要流程是先通过检测模型检测图片中实体目标,然后通过表征模型进行特征提取,最后使用特征向量在引擎中进行检索索引的构建。对于在线检索部分,与入库步骤相同,在线检索过程中,在得到query特征后,直接调用向量引擎召回相关图片,最后返回将结果传给用户。从上述的检索过程可以看出,整个多模态检索系统,以检测/表征算法服务和向量引擎服务这两部分为关键组成。算法模型在表征模型部分已经进行了简单的介绍,对于检索引擎服务,其核心目的是对图像库进行构建检索索引,从而在检索过程中使用ANN近似最近邻算法召回相关结果。从整体上看,模型算法服务和向量引擎的性能对于整体性能有比较关键的影响。对于这两项服务,我们的云产品都做了比较深入的优化提升,在保证模型效果的前提下,对服务时延和并发量做到明显提升。


多模态检索系统能做什么?

2.png

 基于多模态检索系统,我们能应用到哪些场景下呢?传统的文搜文、图搜图等单模态任务依然是支持的,除此之外,文搜图、文搜视频、图搜视频等跨模态的任务也得到了很好的支持。当然,基于检索链路,同样可以完成其他领域的任务,比如数据预标注任务,用户可以通过文搜图检索获取相关图片,对图片进行标签,或者说,在有标签数据的集合中进行图搜图,然后通过标签传递的方式进行打标。事实上,在现实生活中,很多应用场景都可以转化成检索任务进行完成,后续我们也会继续优化模型和整体检索系统,为客户提供更加精准和便捷的服务。

相关文章
|
2月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
281 12
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1582 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
377 121
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
234 113
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
293 114
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
264 117
|
2月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗当AI成为你的“心灵哨兵”:多模态心理风险预警系统如何工作?
AI多模态心理预警系统通过融合表情、语调、文字、绘画等多维度数据,结合深度学习与多模态分析,实时评估心理状态。它像“心灵哨兵”,7×24小时动态监测情绪变化,发现抑郁、焦虑等风险及时预警,兼顾隐私保护,助力早期干预,用科技守护心理健康。(238字)

热门文章

最新文章