上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

简介: 由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM本周,「机智流」和 「ModelScope」社区精选了多模态领域的论文,涵盖科学问题求解、遥感图像匹配、癌症生存预测到临床试验患者匹配等前沿应用。从多智能体框架到超维空间学习,这些研究不仅突破了技术瓶颈,还为AI的跨模态融合与实际落地提供了新思路。快来一起探索这些令人振奋的创新成果吧!✨


MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

论文链接:

https://modelscope.cn/papers/2503.16905  

简要介绍:

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

核心图片:

image.png

 


MapGlue: Multimodal Remote Sensing Image Matching

论文链接:

https://modelscope.cn/papers/2503.16185  

简要介绍:

武汉大学团队提出了MapGlue框架及MapData数据集,针对多模态遥感图像(MRSI)匹配中的几何和辐射差异难题。MapGlue通过双图引导机制提取跨模态不变特征,在全球233个采样点的大规模数据集上实现优异匹配精度,并在未见模态上展现强大泛化性。

核心图片:

image.png

 


Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction

论文链接:

https://modelscope.cn/papers/2503.16069  

简要介绍:

乌得勒支大学和荷兰癌症研究所合作开发了DIMAF框架,通过解缠注意力机制融合全切片图像和转录组数据,提升癌症生存预测。引入距离相关性损失和SHAP解释方法,DIMAF在四个公共数据集上提升1.85%性能和23.7%解缠度,增强了生物学解释性。

核心图片:

  image.png


OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence

论文链接:

https://modelscope.cn/papers/2503.16326  

简要介绍:

北京交通大学和蒙特利尔大学团队提出了OmniGeo,一种面向地理空间AI的多模态大语言模型。OmniGeo整合卫星图像、地理元数据和文本描述,在健康地理、城市感知等五大核心任务中表现出色,首次实现GeoAI多模态统一建模。

核心图片:

image.png

 


OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

论文链接:

https://modelscope.cn/papers/2503.16081  

简要介绍:

OPPO研究院和香港科技大学(广州)提出了OThink-MR1,通过动态强化学习增强多模态语言模型的泛化推理能力。引入动态KL策略,OThink-MR1在视觉计数和几何推理任务中超越监督微调,并在跨任务迁移中展现显著优势。

核心图片:

  image.png


M3: 3D-Spatial MultiModal Memory

论文链接:

https://modelscope.cn/papers/2503.16413  

简要介绍:

加州大学圣地亚哥分校和NVIDIA联合推出了M3,一种3D空间多模态记忆系统。M3结合3D高斯 splatting和基础模型,解决特征压缩难题,并在机器人室内场景中验证其实用性,首次攻克3D特征蒸馏的核心挑战。

核心图片:

image.png

 


Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data

论文链接:

https://modelscope.cn/papers/2503.15374  

简要介绍:

该研究提出了一种无需集成、基于多模态LLM的患者-试验匹配管道,利用EHR原始文档实现自动化筛选。在n2c2数据集上达到93%准确率,真实世界数据中缩短80%审核时间,展示出广泛应用的潜力。

核心图片:

image.png

 


SemEval-2025 Task 1: AdMIRe -- Advancing Multimodal Idiomaticity Representation

论文链接:

https://modelscope.cn/papers/2503.15358  

简要介绍:

谢菲尔德大学等机构推出了AdMIRe任务,挑战多模态模型在图像排序和序列预测中理解习语表达。最佳方法结合预训练LLM和视觉-语言模型,达到人类水平性能,推动了多模态语义表征研究。

核心图片:

 

image.png


Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer

论文链接:

https://modelscope.cn/papers/2503.15352  

简要介绍:

伊利诺伊大学团队提出了一种完美多模态对齐方法,结合高斯假设实现无监督跨模态迁移。通过将语义类建模为高斯混合,实验验证了其在合成数据上的高效性,为跨模态学习开辟新方向。

核心图片:

image.png


Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

论文链接:

https://modelscope.cn/papers/2503.15166  

简要介绍:

奥尔堡大学等机构研究了超维与欧几里得空间中的机器遗忘,提出HAC方法适配MERU模型。实验显示超维几何在概念移除中具有优势,揭示了几何结构对多模态表征遗忘动态的影响。

核心图片:

image.png

-- 完 --

欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群,与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!

目录
相关文章
|
7月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
存储 小程序 API
云开发(微信-小程序)笔记(七)----云存储,你来了(上)
云开发(微信-小程序)笔记(七)----云存储,你来了(上)
470 0
|
人工智能 大数据
从「北大学生」到偶然走红的「AI博主」
从「北大学生」到偶然走红的「AI博主」
|
算法 计算机视觉 Python
圆形检测算法-基于颜色和形状(opencv)
该代码实现了一个圆检测算法,用于识别视频中的红色、白色和蓝色圆形。通过将图像从RGB转换为HSV颜色空间,并设置对应颜色的阈值范围,提取出目标颜色的区域。接着对这些区域进行轮廓提取和面积筛选,使用霍夫圆变换检测圆形,并在原图上绘制检测结果。
686 0
|
人工智能 自然语言处理 Java
对话即服务:Spring Boot整合MCP让你的CRUD系统秒变AI助手
本文介绍了如何通过Model Context Protocol (MCP) 协议将传统Spring Boot服务改造为支持AI交互的智能系统。MCP作为“万能适配器”,让AI以统一方式与多种服务和数据源交互,降低开发复杂度。文章以图书管理服务为例,详细说明了引入依赖、配置MCP服务器、改造服务方法(注解方式或函数Bean方式)及接口测试的全流程。最终实现用户通过自然语言查询数据库的功能,展示了MCP在简化AI集成、提升系统易用性方面的价值。未来,“对话即服务”有望成为主流开发范式。
8926 7
|
监控 网络安全 虚拟化
Hyper-V中Win10,虚拟机运行错误处理的方案
当Hyper-V中的Windows 10虚拟机出现运行错误时,可按以下步骤处理:首先进行基本检查与修复,包括检查虚拟机配置、确保Hyper-V服务正常运行及重启相关服务。其次,使用PowerShell命令或DISM工具修复虚拟机配置和系统组件。接着,查看事件查看器中的错误日志,分析问题原因。调整虚拟机资源分配,优化性能。针对特定错误情况,如启动失败或网络问题,采取相应措施解决。若问题仍未解决,考虑克隆、重置或重新安装虚拟机,必要时联系技术支持。操作前请备份重要数据并以管理员身份运行命令。
1219 22
|
设计模式 缓存 Java
重学Java基础篇—Java对象创建的7种核心方式详解
本文全面解析了Java中对象的创建方式,涵盖基础到高级技术。包括`new关键字`直接实例化、反射机制动态创建、克隆与反序列化复用对象,以及工厂方法和建造者模式等设计模式的应用。同时探讨了Spring IOC容器等框架级创建方式,并对比各类方法的适用场景与优缺点。此外,还深入分析了动态代理、Unsafe类等扩展知识及注意事项。最后总结最佳实践,建议根据业务需求选择合适方式,在灵活性与性能间取得平衡。
732 3
|
编解码 开发者 Python
【Python】已解决:UnicodeEncodeError: ‘utf-8’ codec can’t encode characters in position 42-43: surrogates
【Python】已解决:UnicodeEncodeError: ‘utf-8’ codec can’t encode characters in position 42-43: surrogates
2430 0
|
设计模式 安全 数据库连接
【C++11】包装器:深入解析与实现技巧
本文深入探讨了C++中包装器的定义、实现方式及其应用。包装器通过封装底层细节,提供更简洁、易用的接口,常用于资源管理、接口封装和类型安全。文章详细介绍了使用RAII、智能指针、模板等技术实现包装器的方法,并通过多个案例分析展示了其在实际开发中的应用。最后,讨论了性能优化策略,帮助开发者编写高效、可靠的C++代码。
445 2

热门文章

最新文章