OmniScience:大规模科学多模态数据集重磅上线-阿里云开发者社区

OmniScience:大规模科学多模态数据集重磅上线

2026-04-21 21

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： OmniScience是深势科技开源的科研图像理解数据集，含150万高质量“图-文-上下文”三元组、500万子图，覆盖10大科学领域。依托Uni-Parser与多模态大模型重描述，显著提升AI对科学图表的深层语义理解能力。

论文：https://arxiv.org/abs/2602.13758

在科学研究日益数字化的今天，大模型已经可以轻松阅读各种书籍和文献中的文本。但是如何让 AI 真正“读懂”科研文献中复杂的科学图像数据，已成为“AI for Science”领域的关键挑战。

基于深势科技（DP Technology）自研的 Uni-Parser 科学文献解析框架，科研团队近日发布了大规模科学多模态数据集 OmniScience，旨在攻克多模态大模型在科学图像领域理解力不足的瓶颈，数据集现已在ModelScope开源。

规模与质量的双重突破

OmniScience 数据集不仅在规模上达到了新的高度，在专业覆盖度上也力求极致：

海量规模： 包含 150 万组“图-文-上下文”三元组，并进一步细分出超过 500 万个子图，数据总量突破 700GB，包含超过 43 亿 token。
学科覆盖： 涵盖物理、化学、生物、材料科学等 10 大类核心科学领域，确保了数据的多样性与代表性。
高质量来源：来源均为顶级开放获取的期刊期刊（平均影响因子 >12），以及高引用预印本，通过多重质量过滤确保文献来源具备高知识质量和高信息密度。
caption重撰写： 团队开发了基于动态模型路由（Model-routing）的 re-caption 方法，利用前沿的多模态大模型（Gemini-3-Pro，GPT-5， Qwen3-VL-235B等），参考论文中的原始图像caption和上下文内容，对图像进行深度解析，生成了信息密度更高、语义更准确的自我完备描述。让caption 在 Qwen3-VL-Reranker-8B 上测试的reranker score从 0.769 提升到 0.956，极大提高了图文的深层语义相关性。同时把caption平均长度从 106提升到 361个单词。
多轮质量过滤：通过多轮质量控制规则、去重流水线，以及大模型质量评估和幻觉检测，确保了数据质量。

显著提升模型科学素养

研究团队通过对 Qwen2.5-VL-3B 等模型进行微调，基于CaptionQA范式，验证了 OmniScience 的巨大价值。实验结果显示：

在科学理解评测基准 MM-MT-Bench 上，模型表现提升了 0.378；
在综合性多模态基准 MMMU 上取得了 0.140 的显著增益。

这证明了使用OmniScience数据能够有效增强AI对实验表征图、原理示意图及分析图表的理解能力。此外，通过LLM-as-a-judge方法对训练后的模型进行评估，可以发现：相较于原始模型以及使用MMSCI或ArXivCap数据训练的模型，基于OmniScience数据训练的模型在语言流畅度、准确率、图文一致性以及细节描述等方面均表现出显著优势。验证了 OmniScience 的巨大价值。