今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

简介: 由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日论文吧。

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

论文链接:

https://modelscope.cn/papers/2503.16660

简要介绍:

由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

核心图片:

image.png


MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

论文链接:

https://modelscope.cn/papers/2503.16905

简要介绍:

来自西安交通大学、新加坡国立大学等机构的团队推出了 MAPS 框架,基于“大七人格理论”和苏格拉底引导法,解决多模态科学问题(MSPs)。通过七个功能独特的代理和四阶段解题策略,外加“批判者”代理的反思机制,该方法在 EMMA、Olympiad 等数据集上超越 SOTA 模型 15.84%,展现了强大的跨模态推理能力。

核心图片:

image.png


MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

论文链接:

https://modelscope.cn/papers/2503.16874

简要介绍:

由西安交通大学、南洋理工大学等团队打造的 MARS 框架,针对自动提示优化(APO)的灵活性和搜索效率问题,提出了多代理融合技术。通过七个代理协作和“教师-批判者-学生”的苏格拉底对话模式,逐步优化提示,在多个数据集上验证了其高效性和可解释性。

核心图片:

image.png


RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

论文链接:

https://modelscope.cn/papers/2503.16408

简要介绍:

香港中文大学(深圳)、上海人工智能实验室等机构提出了 RoboFactory,探索多代理协作中的具身智能。通过引入“组合约束”(逻辑、空间、时间),设计了自动数据收集框架并推出首个多代理操作基准。基于模仿学习的测试表明,该方法在安全性与效率上表现优异。

核心图片:

image.png


Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

论文链接:

https://modelscope.cn/papers/2503.16430

简要介绍:

香港大学、字节跳动等团队提出了 TokenBridge,解决自回归视觉生成中离散与连续 token 的两难问题。通过训练后量化和维度级预测策略,该方法保留了连续 token 的表征能力,同时保持离散 token 的建模简洁性,在 ImageNet 上实现了高质量生成。

核心图片:

image.png


OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

论文链接:

https://modelscope.cn/papers/2503.17352

简要介绍:

加州大学洛杉矶分校团队推出了 OpenVLThinker,通过迭代自改进增强大型视觉-语言模型的复杂推理能力。结合监督微调和强化学习,该模型在 MathVista 等基准上表现持续提升,展示了从文本到多模态推理的潜力。

核心图片:

image.png


Modifying Large Language Model Post-Training for Diverse Creative Writing

论文链接:

https://modelscope.cn/papers/2503.17126

简要介绍:

Midjourney 和纽约大学团队研究了如何在后训练中提升 LLM 的创意写作多样性。他们通过引入“偏差”到训练目标(如 DPO 和 ORPO),在保持高质量输出的同时显著提升多样性,最佳模型媲美 GPT-4o 和 DeepSeek-R1。

核心图片:

image.png


TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

论文链接:

https://modelscope.cn/papers/2503.17032

简要介绍:

阿里巴巴团队提出了 TaoAvatar,利用 3D 高斯 splatting 技术打造实时全息说话头像。通过轻量化 MLP 网络和混合形状补偿,该方法在 AR 设备上实现 90 FPS 的高质量渲染,适用于电商直播等场景。

核心图片:

image.png


MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

论文链接:

https://modelscope.cn/papers/2503.16549

简要介绍:

浙江大学、清华大学等团队推出了 MathFlow,针对多模态 LLM 在视觉数学问题中的感知瓶颈,提出了解耦感知与推理的管道。训练的 MathFlow-P-7B 模型显著提升了信息提取能力,与多种推理模型兼容表现出色。

核心图片:

image.png


A Comprehensive Survey on Long Context Language Modeling

论文链接:

https://modelscope.cn/papers/2503.17407

简要介绍:

南京大学、北京大学等机构联合撰写的综述,全面回顾了长上下文语言模型(LCLMs)的最新进展。从数据策略到架构设计,再到训练部署与评估,为研究者和工程师提供了宝贵资源。

核心图片:

image.png


今天的论文盘点是不是让你脑洞大开?从高效 token 削减到多代理协作,再到实时 AR 头像,每篇研究都在推动 AI 的边界。别忘了点赞收藏,明天还有更多前沿技术等你探索!🚀✨

-- 完 --

目录
相关文章
|
4月前
|
人工智能 缓存 监控
Coze AI 智能体工作流配置与实战全指南
Coze工作流让AI智能体从问答工具进化为复杂任务执行者。通过可视化编排,可构建如智能旅行规划等多步骤自动化系统,支持并行处理、条件分支与错误恢复。结合触发、LLM、工具与判断节点,实现高效、可维护的智能流程,助力AI成为真正的“数字同事”。
|
存储 机器学习/深度学习 人工智能
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。
799 8
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
|
机器学习/深度学习 人工智能 机器人
上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1
由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
584 1
|
11月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
844 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
缓存 监控 数据处理
Flink 四大基石之窗口(Window)使用详解
在流处理场景中,窗口(Window)用于将无限数据流切分成有限大小的“块”,以便进行计算。Flink 提供了多种窗口类型,如时间窗口(滚动、滑动、会话)和计数窗口,通过窗口大小、滑动步长和偏移量等属性控制数据切分。窗口函数包括增量聚合函数、全窗口函数和ProcessWindowFunction,支持灵活的数据处理。应用案例展示了如何使用窗口进行实时流量统计和电商销售分析。
2395 28
|
JSON JavaScript 前端开发
蓝桥杯web组赛题解析和杯赛技巧
本文作者是一位自学前端两年半的大一学生,在第十五届蓝桥杯Web组比赛中获得省一和国三。文章详细解析了比赛题纲,涵盖HTML、CSS、JavaScript、Echarts和Vue等技术要点,并分享了备赛技巧和比赛经验。作者强调了多写代码和解题思路的重要性,同时提供了省赛和国赛的具体流程及注意事项。希望对参赛者有所帮助。
1392 11
|
SQL 存储 安全
信息安全管理与评估赛题第7套
信息安全管理与评估赛题第7套
1225 0
|
编解码 Linux 计算机视觉
python 调用ffmpeg使用usb摄像头录制视频,输出h264格式,自动获取摄像头的最佳帧率和最大画面尺寸
使用 Python 调用 FFmpeg 进行 USB 摄像头视频录制,需先确保安装 FFmpeg 和 Python 的 `subprocess` 模块。代码示例展示了如何自动获取摄像头的最佳帧率和最大分辨率,然后录制视频。首先通过 FFmpeg 列出摄像头格式获取信息,解析出帧率和分辨率,选择最优值。之后调用 FFmpeg 命令录制视频,设置帧率、分辨率等参数。注意 `/dev/video0` 是 Linux 的摄像头设备路径,Windows 系统需相应调整。代码中未直接实现自动获取最佳参数,通常需要借助其他库如 OpenCV。
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
363 2
|
存储 Kubernetes Ubuntu
使用 ezctl 工具部署和管理 Kubernetes 集群
使用 ezctl 工具部署和管理 Kubernetes 集群
1676 0
使用 ezctl 工具部署和管理 Kubernetes 集群

热门文章

最新文章