论文:https://arxiv.org/abs/2602.13758
在科学研究日益数字化的今天,大模型已经可以轻松阅读各种书籍和文献中的文本。但是如何让 AI 真正“读懂”科研文献中复杂的科学图像数据,已成为“AI for Science”领域的关键挑战。
基于深势科技(DP Technology)自研的 Uni-Parser 科学文献解析框架,科研团队近日发布了大规模科学多模态数据集 OmniScience,旨在攻克多模态大模型在科学图像领域理解力不足的瓶颈,数据集现已在ModelScope开源。
规模与质量的双重突破
OmniScience 数据集不仅在规模上达到了新的高度,在专业覆盖度上也力求极致:
- 海量规模: 包含 150 万组“图-文-上下文”三元组,并进一步细分出超过 500 万个子图,数据总量突破 700GB,包含超过 43 亿 token。
- 学科覆盖: 涵盖物理、化学、生物、材料科学等 10 大类核心科学领域,确保了数据的多样性与代表性。
- 高质量来源:来源均为顶级开放获取的期刊期刊(平均影响因子 >12),以及高引用预印本,通过多重质量过滤确保文献来源具备高知识质量和高信息密度。
- caption重撰写: 团队开发了基于动态模型路由(Model-routing)的 re-caption 方法,利用前沿的多模态大模型(Gemini-3-Pro,GPT-5, Qwen3-VL-235B等),参考论文中的原始图像caption和上下文内容,对图像进行深度解析,生成了信息密度更高、语义更准确的自我完备描述。让caption 在 Qwen3-VL-Reranker-8B 上测试的reranker score从 0.769 提升到 0.956,极大提高了图文的深层语义相关性。同时把caption平均长度从 106提升到 361个单词。
- 多轮质量过滤:通过多轮质量控制规则、去重流水线,以及大模型质量评估和幻觉检测,确保了数据质量。
显著提升模型科学素养
研究团队通过对 Qwen2.5-VL-3B 等模型进行微调,基于CaptionQA范式,验证了 OmniScience 的巨大价值。实验结果显示:
- 在科学理解评测基准 MM-MT-Bench 上,模型表现提升了 0.378;
- 在综合性多模态基准 MMMU 上取得了 0.140 的显著增益。
这证明了使用OmniScience数据能够有效增强AI对实验表征图、原理示意图及分析图表的理解能力。此外,通过LLM-as-a-judge方法对训练后的模型进行评估,可以发现:相较于原始模型以及使用MMSCI或ArXivCap数据训练的模型,基于OmniScience数据训练的模型在语言流畅度、准确率、图文一致性以及细节描述等方面均表现出显著优势。验证了 OmniScience 的巨大价值。
希望OmniScience数据的开源,让模型不仅能看图说话,更能理解科学多模态表达和推理的深层逻辑。推动AI for Science以及科学多模态大模型的发展。
数据集:https://www.modelscope.cn/datasets/UniParser/OmniScience