百度PaddleOCR-VL多模态文档解析方案开源发布,0.9B参数问鼎SOTA

简介: 精准识别中文手写、表格、公式、图表等复杂元素,支持全球109种语言


2025年,PaddleOCR陆续推出了文字识别方案PP-OCRv5、文档解析方案PP-StructureV3、关键信息抽取方案PP-ChatOCRv4等多项重磅解决方案。得益于多项创新突破,PaddleOCR受到了用户的广泛青睐,并崛起为大模型产业化的关键工具。

10.16,百度正式开源发布了新一代多模态文档解析模型方案PaddleOCR-VL!该方案仅0.9B参数就刷新了多个权威文档解析评测记录具备109种语言的文档解析能力


代码:

https://github.com/PaddlePaddle/PaddleOCR

模型:

https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL

技术报告:

https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

体验Demo:

https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo


模型介绍

PaddleOCR-VL是一款极致轻量高效的文档解析模型,专为文档中的元素识别设计。它的核心模型PaddleOCR-VL-0.9B集成了高效的视觉编码器和强大的语言模型,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素。PaddleOCR-VL覆盖多达109种语言,无论是中文、英文等主流语言,还是小语种,都能实现轻松处理。与其他同类模型相比,PaddleOCR-VL不仅识别效果更好,资源消耗也非常低,速度快,效率高。

在多个公开和内部测试中,PaddleOCR-VL在整页文档解析和单个元素的识别方面都取得了业界领先的成绩,明显优于现有的其他方案。凭借这些优势,PaddleOCR-VL非常适合在各种实际场景中部署使用。

核心亮点

  • 紧凑而强大的VLM架构:核心模型PaddleOCR-VL-0.9B是一种专为资源高效推理设计的全新视觉语言模型,在文档类元素识别上取得卓越表现。通过将NaViT风格的动态高分辨率视觉编码器与轻量级ERNIE-4.5-0.3B语言模型相结合,显著提升了识别能力与解码效率。在保持高精度的同时降低计算开销,使其非常适合高效、实用的文档处理应用。
  • 文档解析的SOTA表现:PaddleOCR-VL在文档解析任务中取得最先进的性能。它在识别包含表格、公式和图表等元素的复杂文档方面表现优异,擅长手写文本历史文档在内的多种挑战性内容类型。
  • 支持109种语言的文字识别覆盖主要通用语言及多样书写体系(如俄语、阿拉伯语、印地语等),PaddleOCR-VL在多语种与全球化文档处理场景中具有广泛适用性。


方案简介

PaddleOCR-VL将复杂的文档解析任务分解为两个阶段。第一阶段PP-DocLayoutV2负责版面分析,定位语义区域并预测其阅读顺序。随后,第二阶段PaddleOCR-VL-0.9B基于这些版面预测,对文本、表格、公式和图表等多样化内容进行细粒度识别。最后,聚合两个阶段的输出,并将最终待预测文档化为结构化的Markdown和JSON文件。


  案例展示



更多的案例可参考技术报告:

https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf



推理性能

下表展示了不同文档解析模型在A100上的端到端推理速度。凭借轻量化的模型结构,PaddleOCR-VL每秒可处理1881个Token,推理速度较MinerU2.5提升14.2%,较dots.ocr提升253.01%。在当前主流开源多模态OCR方案中,PaddleOCR-VL展现出显著的速度优势。


此外,近期PaddleOCR对PP-OCRv5的多语言文字识别能力也进行了升级,进一步扩展了对拉丁文相关语言的支持,并新增了对西里尔文、泰米尔文、泰卢固文、阿拉伯文和天城文等五大语种的识别能力。与PaddleOCR-VL 保持一致,现已支持多达109种语言的文字识别。


点击直达体验https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo


目录
相关文章
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
316 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
967 2
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1602 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
2月前
|
存储 数据采集 自然语言处理
56_大模型微调:全参数与参数高效方法对比
随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。
|
3月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
654 21
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。
444 10
|
3月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
737 109
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1581 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)

热门文章

最新文章