Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持零样本OCR识别,兼容PDF、DOCX、图片等多种格式文件。
  2. 技术:基于GPT-4o-mini模型,能够处理复杂布局文档,输出Markdown格式结果。
  3. 应用:提供API接口,便于集成到企业文档管理、学术研究等场景中。

正文(附运行示例)

Zerox 是什么

zerox

Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练即可实现零样本识别。它支持PDF、DOCX、图片等多种格式文件,尤其擅长处理扫描版文档及复杂布局文件,如含表格、图表等。

Zerox 的工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。此外,Zerox 提供API接口,便于开发者集成到应用中,实现自动化文档处理,广泛应用于企业文档管理、学术研究、法律金融以及教育等领域,极大提升文档信息提取的效率和准确性。

Zerox 的主要功能

  • 零样本OCR识别:无需用户提供大量样本进行训练,直接对各种类型的文档进行高精度的文本提取,节省训练模型的时间和精力。
  • 多格式文件支持:兼容PDF、DOCX、图片等多种常见格式的文件,对扫描版文档有很好的处理效果。
  • 复杂布局处理:准确识别和处理包含表格、图表等复杂布局的文件,提取出完整的文档信息,为用户提供更全面、准确的文档内容。
  • Markdown格式输出:将识别结果转换为Markdown格式,方便用户进行后续的编辑和整理,能较好地保持文档的视觉和结构完整性。
  • API接口提供:具备API接口,方便开发者集成到自己的应用程序中,实现自动化、批量化的文档处理功能,提高工作效率,拓展工具的应用范围和灵活性。

Zerox 的技术原理

  • 文件转换:将用户提交的PDF、DOCX等格式的文件转换为一系列图像。针对图像中的文字进行识别,将文件转换为图像格式是进行OCR识别的必要步骤,便于后续模型对文字内容进行准确提取。
  • GPT-4o-mini模型识别:基于GPT-4o-mini模型对转换后的图像进行OCR识别。模型基于深度学习技术,对图像中的文字进行分析和识别,理解复杂的布局和格式,准确提取出文字内容。
  • 结果转换与汇总:将每个图像的OCR识别结果转换成Markdown格式,将所有页面的Markdown结果汇总在一起,形成一个完整的Markdown文档。这一过程涉及到格式的转换,且需要对识别结果进行整合和优化,确保输出的文档内容完整、结构清晰,方便用户进行后续的查看、编辑和使用。

如何运行 Zerox

Zerox 提供了 Node 和 Python 两种运行方式,以下是 Node 的示例代码:

1. 安装 Zerox

npm install zerox

2. 使用 Zerox 进行 OCR 识别

import {
    zerox } from "zerox";

const result = await zerox({
   
  filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

3. 输出结果

{
   
  completionTime: 10038,
  fileName: 'invoice_36258',
  inputTokens: 25543,
  outputTokens: 210,
  pages: [
    {
   
      content: '# INVOICE # 36258\n' +
        '**Date:** Mar 06 2012  \n' +
        '**Ship Mode:** First Class  \n' +
        '**Balance Due:** $50.10  \n' +
        '## Bill To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '## Ship To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '\n' +
        '| Item                                       | Quantity | Rate   | Amount  |\n' +
        '|--------------------------------------------|----------|--------|---------|\n' +
        "| Global Push Button Manager's Chair, Indigo | 1        | $48.71 | $48.71  |\n" +
        '| Chairs, Furniture, FUR-CH-4421             |          |        |         |\n' +
        '\n' +
        '**Subtotal:** $48.71  \n' +
        '**Discount (20%):** $9.74  \n' +
        '**Shipping:** $11.13  \n' +
        '**Total:** $50.10  \n' +
        '---\n' +
        '**Notes:**  \n' +
        'Thanks for your business!  \n' +
        '**Terms:**  \n' +
        'Order ID : CA-2012-AB10015140-40974  ',
      page: 1,
      contentLength: 747,
      status: 'SUCCESS',
    }
  ],
  summary: {
   
    failedPages: 0,
    successfulPages: 1,
    totalPages: 1,
  },
}

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
15天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171335 12
|
18天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150296 32
|
26天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201962 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
4天前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
8天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1253 10
|
10天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
8天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1347 24
|
8天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
660 26
1月更文特别场——寻找用云高手,分享云&AI实践
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
|
14天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。

热门文章

最新文章