❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:支持零样本OCR识别,兼容PDF、DOCX、图片等多种格式文件。
- 技术:基于GPT-4o-mini模型,能够处理复杂布局文档,输出Markdown格式结果。
- 应用:提供API接口,便于集成到企业文档管理、学术研究等场景中。
正文(附运行示例)
Zerox 是什么
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练即可实现零样本识别。它支持PDF、DOCX、图片等多种格式文件,尤其擅长处理扫描版文档及复杂布局文件,如含表格、图表等。
Zerox 的工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。此外,Zerox 提供API接口,便于开发者集成到应用中,实现自动化文档处理,广泛应用于企业文档管理、学术研究、法律金融以及教育等领域,极大提升文档信息提取的效率和准确性。
Zerox 的主要功能
- 零样本OCR识别:无需用户提供大量样本进行训练,直接对各种类型的文档进行高精度的文本提取,节省训练模型的时间和精力。
- 多格式文件支持:兼容PDF、DOCX、图片等多种常见格式的文件,对扫描版文档有很好的处理效果。
- 复杂布局处理:准确识别和处理包含表格、图表等复杂布局的文件,提取出完整的文档信息,为用户提供更全面、准确的文档内容。
- Markdown格式输出:将识别结果转换为Markdown格式,方便用户进行后续的编辑和整理,能较好地保持文档的视觉和结构完整性。
- API接口提供:具备API接口,方便开发者集成到自己的应用程序中,实现自动化、批量化的文档处理功能,提高工作效率,拓展工具的应用范围和灵活性。
Zerox 的技术原理
- 文件转换:将用户提交的PDF、DOCX等格式的文件转换为一系列图像。针对图像中的文字进行识别,将文件转换为图像格式是进行OCR识别的必要步骤,便于后续模型对文字内容进行准确提取。
- GPT-4o-mini模型识别:基于GPT-4o-mini模型对转换后的图像进行OCR识别。模型基于深度学习技术,对图像中的文字进行分析和识别,理解复杂的布局和格式,准确提取出文字内容。
- 结果转换与汇总:将每个图像的OCR识别结果转换成Markdown格式,将所有页面的Markdown结果汇总在一起,形成一个完整的Markdown文档。这一过程涉及到格式的转换,且需要对识别结果进行整合和优化,确保输出的文档内容完整、结构清晰,方便用户进行后续的查看、编辑和使用。
如何运行 Zerox
Zerox 提供了 Node 和 Python 两种运行方式,以下是 Node 的示例代码:
1. 安装 Zerox
npm install zerox
2. 使用 Zerox 进行 OCR 识别
import {
zerox } from "zerox";
const result = await zerox({
filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
3. 输出结果
{
completionTime: 10038,
fileName: 'invoice_36258',
inputTokens: 25543,
outputTokens: 210,
pages: [
{
content: '# INVOICE # 36258\n' +
'**Date:** Mar 06 2012 \n' +
'**Ship Mode:** First Class \n' +
'**Balance Due:** $50.10 \n' +
'## Bill To:\n' +
'Aaron Bergman \n' +
'98103, Seattle, \n' +
'Washington, United States \n' +
'## Ship To:\n' +
'Aaron Bergman \n' +
'98103, Seattle, \n' +
'Washington, United States \n' +
'\n' +
'| Item | Quantity | Rate | Amount |\n' +
'|--------------------------------------------|----------|--------|---------|\n' +
"| Global Push Button Manager's Chair, Indigo | 1 | $48.71 | $48.71 |\n" +
'| Chairs, Furniture, FUR-CH-4421 | | | |\n' +
'\n' +
'**Subtotal:** $48.71 \n' +
'**Discount (20%):** $9.74 \n' +
'**Shipping:** $11.13 \n' +
'**Total:** $50.10 \n' +
'---\n' +
'**Notes:** \n' +
'Thanks for your business! \n' +
'**Terms:** \n' +
'Order ID : CA-2012-AB10015140-40974 ',
page: 1,
contentLength: 747,
status: 'SUCCESS',
}
],
summary: {
failedPages: 0,
successfulPages: 1,
totalPages: 1,
},
}
资源
- GitHub 仓库:https://github.com/getomni-ai/zerox
- 在线体验Demo:https://getomni.ai/ocr-demo
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦