准确高效的TextIn文档解析:一项开发痛点的解决方案

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 企业在构建知识库问答系统时面临挑战,尤其是处理扫描文档和手写内容。传统OCR工具和开源方法在准确性和速度上不足。专业长文档解析成为关键,其中TextIn平台的文档解析服务脱颖而出。该服务能快速将PDF转为Markdown,提高处理速度和准确性,尤其适合处理复杂布局的长文档。通过实际测试,TextIn能有效增强LLM问答系统的性能,解决无法正确解析的问题。目前TextIn处于内测阶段,提供每周7000页的免费试用额度,开发者可通过其官网或“合研社”公众号了解更多信息和获取接口文档。

一、写在前面的话

最近接到一项需求(咨询),计划是做企业级的知识库问答,将相关业务的现有数据、材料做清洗整合,建立数据库,通过问答工具提高业务部门的工作效率。

对现有的开源方法做了一些调研后,笔者发现开发工作在流程第一步就比较难顺畅推进。原因在于,需求方的重要数据有很大一部分来自还没完全实现无纸化办公的环境,以扫描档居多,也包含一部分手写批注或修正,而结合现有的开源工具,自研开发难度相当高。在此分享一下调研过程中的收获。

二、还得是专业的长文档解析

长文档解析并不是一项产生时间很久的需求。在大模型应用进入市场之前,传统的智能文字处理工具已经能满足C端用户的大部分阅读、编辑需求。此前,OCR主要用于处理单页发票、卡、证等,长文档识别缺乏应用场景。

随着LLM在过去一年中的快速发展,我们逐渐发掘AI在处理大量信息内容并提取、总结、帮助分析方面强大的优势,对长文档做高效、准确解析的需求很快浮现。笔者进行调研的基础正是处理长篇且版面复杂的PDF文件。

首先,笔者考虑的是大家通常使用的开源工具,能够支持电子档PDF的提取,但也发现PyPDF2等工具对中文的支持不太理想,距离企业需求的准确度仍有比较大的差距。而结合一些可订阅的OCR工具,例如一些大厂的云服务,一定程度上满足了扫描文件识别要求,但依旧产生两个问题:

1、OCR识别的耗时较长,在处理长文档时体验感不佳;
2、从技术原理来说,OCR返回的信息是文本与相应坐标,一般按行输出字符内容,缺少序列与段落信息,更难以应对有线甚至无线表格、多栏文档这样的复杂板式。

88e700b641eefb15b4ba55c6756276ce_d0b0f7a6e68b4ad1ade9f3fa0383225e.png

总体来说,要基于现有方法实现解析文档的需求,自研难度较大,难以实现理想的速度、泛化能力和兼容性,而如果使用大量数据标注做模型训练,又会需要相当高的成本与漫长的开发周期。因此,笔者测试了目前市场上专业的文档解析产品,并发现一款能解决痛点的产品:合合信息TextIn平台的文档解析。

这款产品能提供PDF转Markdown服务,测试下来速度也令人满意,处理100页左右的长文档,能在3s以内输出结果。这是笔者比较过的好几款市面上的产品中速度最快的,有一些产品20页以内的文档需要几十秒处理时间,在效率和体验感差异巨大。

笔者也通过TextIn平台与合合信息的技术人员简单交流了文档解析的技术使用,根据他们的内部测试,在同一批数据上,使用同样的Prompt给到大模型做信息抽取,比较纯OCR和markdown格式输出的差异,发现Markdown格式的抽取准确率要高于纯OCR输出不少。

这也是比较好理解的,我们知道在LLM训练时,大家一般会采用Markdown格式作为训练语料,而同格式的输入对大模型来说较为友好。笔者在测试后发现:要加快问答产品的研发周期,还得是专业的长文档解析。

三、使用TextIn文档解析工具增强LLM问答

分享几个测试案例。主要是一开始用大模型自带解析无法正确应答的,在用TextIn文档解析后做了二次尝试。

笔者上传一份技术专业文件扫描档,并向Kimi提出一个检索式内容问题,回答为文本内容不包含。而同样的文本,经过文档解析转换后,提出一样的问题,Kimi能够准确回答

6eee63c926ed2f454076ac0a14910721_ec5a2e97baa44528aa2fc36ab70e9ffd.png

在扫描原文件中,可以对结果进行验证。

94b816ed5e5b1b1fd79d3f9c6b51d806_2ac83b2479ac465aaad6f4a94a146969.png

在海螺AI,笔者测试了两份含表格文件。第一份为公司文件。

03a61a11aae3d2ca29f27699ace7a8ac_df6292d6f7584817872542fcc2bb82c0.png

3465cd587f829307ae9a7862a14a8f39_1cd65c10d78a414cbcdc78b98681931a.png

针对扫描档,海螺回复内容为空。由于海螺暂时不支持Markdown格式,将文档解析输出结果手动转为txt格式,能正确给出答案,且指明了位置。

回到原文件,也可以方便地定位到信息。

b9287b1195b21962883f52ccfc70cd36_bb138bed5a514815b0252bb522cb4fa0.png

第二份为财报文件。
629cc84906e3efbdbe62f6d56583974a_aa806e63c44743f082b9b329275bd96a.png

2d90c0c3ec3ba09e9476748a8dcda5f0_d1e35277141248908f1494c1710654c1.png

3e5fef636885b35af83eec088aa8fd47_71f3b2dbd06649a9834710fca638ba23.png

同样地,经由文档解析后,大模型的答复得到显著提升。

TextIn这款产品符合开发知识库问答需要的几大要素:快速解析、高准确度与良好的兼容性,解决了当前开发过程中的痛点。

四、试用方式

分享一下TextIn文档解析的使用方式,希望能给与笔者遇到类似困难的开发者提供一些思路。同时,笔者注册的时候发现这款产品现在正处于内测阶段,平台给每位开发者提供每周7000页的额度福利,有需要的C站朋友也可以通过“合研社”公众号领取。

产品官网链接:https://www.textin.com/market/detail/pdf_to_markdown

文档解析产品在TextIn平台,第一次使用需要注册账号,速度也很快,点击页面上的“免费体验”就可以试用了。
对开发者来说,如果需要用代码调用,也有对应的接口文档内容
https://www.textin.com/document/pdf_to_markdown

平台提供了一个Playground,帮开发者们预先调试接口。

669b2271f3ef7208e603e610c4e43e88_75a9d036eb524d95bbd87d882120631a.png

7e5b5452a3e68e9da864fc448e819ad9_7c78637ad66d4762953af44c4a89e885.png

简单配置一些接口参数,发起调用后,就能查看调用结果。

如果想用python调用,既可以参考平台上的通用示例代码,也可以通过公众号“合研社”,联系合合技术团队,获得更全面的demo代码。

开始试用👉TextIn平台

相关文章
|
4月前
|
开发框架 供应链 监控
并行开发模型详解:类型、步骤及其应用解析
在现代研发环境中,企业需要在有限时间内推出高质量的产品,以满足客户不断变化的需求。传统的线性开发模式往往拖慢进度,导致资源浪费和延迟交付。并行开发模型通过允许多个开发阶段同时进行,极大提高了产品开发的效率和响应能力。本文将深入解析并行开发模型,涵盖其类型、步骤及如何通过辅助工具优化团队协作和管理工作流。
125 3
|
1月前
|
Serverless 对象存储 人工智能
智能文件解析:体验阿里云多模态信息提取解决方案
在当今数据驱动的时代,信息的获取和处理效率直接影响着企业决策的速度和质量。然而,面对日益多样化的文件格式(文本、图像、音频、视频),传统的处理方法显然已经无法满足需求。
83 4
智能文件解析:体验阿里云多模态信息提取解决方案
|
1月前
|
文字识别 开发者 数据处理
多模态数据信息提取解决方案评测报告!
阿里云推出的《多模态数据信息提取》解决方案,利用AI技术从文本、图像、音频和视频中提取关键信息,支持多种应用场景,大幅提升数据处理效率。评测涵盖部署体验、文档清晰度、模板简化、示例验证及需求适配性等方面。方案表现出色,部署简单直观,功能强大,适合多种业务场景。建议增加交互提示、多语言支持及优化OCR和音频转写功能...
94 3
多模态数据信息提取解决方案评测报告!
|
15天前
|
小程序 前端开发 关系型数据库
uniapp跨平台框架,陪玩系统并发性能测试,小程序源码搭建开发解析
多功能一体游戏陪练、语音陪玩系统的开发涉及前期准备、技术选型、系统设计与开发及测试优化。首先,通过目标用户分析和竞品分析明确功能需求,如注册登录、预约匹配、实时语音等。技术选型上,前端采用Uni-app支持多端开发,后端选用PHP框架确保稳定性能,数据库使用MySQL保证数据一致性。系统设计阶段注重UI/UX设计和前后端开发,集成WebSocket实现语音聊天。最后,通过功能、性能和用户体验测试,确保系统的稳定性和用户满意度。
|
22天前
|
人工智能 监控 数据可视化
提升开发效率:看板方法的全面解析
随着软件开发复杂度提升,并行开发模式下面临资源分配不均、信息传递延迟及缺乏全局视图等瓶颈问题。看板工具通过任务状态实时可视化、流量效率监控和任务依赖管理,帮助团队直观展示和解决这些瓶颈。未来,结合AI预测和自动化优化,看板工具将更高效地支持并行开发,成为驱动协作与创新的核心支柱。
|
1月前
|
JSON 供应链 搜索推荐
淘宝APP分类API接口:开发、运用与收益全解析
淘宝APP作为国内领先的购物平台,拥有丰富的商品资源和庞大的用户群体。分类API接口是实现商品分类管理、查询及个性化推荐的关键工具。通过开发和使用该接口,商家可以构建分类树、进行商品查询与搜索、提供个性化推荐,从而提高销售额、增加商品曝光、提升用户体验并降低运营成本。此外,它还能帮助拓展业务范围,满足用户的多样化需求,推动电商业务的发展和创新。
59 5
|
2月前
|
安全 前端开发 Android开发
探索移动应用与系统:从开发到操作系统的深度解析
在数字化时代的浪潮中,移动应用和操作系统成为了我们日常生活的重要组成部分。本文将深入探讨移动应用的开发流程、关键技术和最佳实践,同时分析移动操作系统的核心功能、架构和安全性。通过实际案例和代码示例,我们将揭示如何构建高效、安全且用户友好的移动应用,并理解不同操作系统之间的差异及其对应用开发的影响。无论你是开发者还是对移动技术感兴趣的读者,这篇文章都将为你提供宝贵的见解和知识。
|
3月前
|
存储 缓存 监控
后端开发中的缓存机制:深度解析与最佳实践####
本文深入探讨了后端开发中不可或缺的一环——缓存机制,旨在为读者提供一份详尽的指南,涵盖缓存的基本原理、常见类型(如内存缓存、磁盘缓存、分布式缓存等)、主流技术选型(Redis、Memcached、Ehcache等),以及在实际项目中如何根据业务需求设计并实施高效的缓存策略。不同于常规摘要的概述性质,本摘要直接点明文章将围绕“深度解析”与“最佳实践”两大核心展开,既适合初学者构建基础认知框架,也为有经验的开发者提供优化建议与实战技巧。 ####
|
2月前
|
Java 调度 Android开发
安卓与iOS开发中的线程管理差异解析
在移动应用开发的广阔天地中,安卓和iOS两大平台各自拥有独特的魅力。如同东西方文化的差异,它们在处理多线程任务时也展现出不同的哲学。本文将带你穿梭于这两个平台之间,比较它们在线程管理上的核心理念、实现方式及性能考量,助你成为跨平台的编程高手。
|
3月前
|
监控 前端开发 安全
如何开发一个网站:全面解析与实战指南
在数字化时代,网站是企业和个人展示形象、传播信息的关键平台。本文提供从规划、设计、开发、上线到后期维护的全方位网站开发指南,涵盖明确目标、分析用户、设定功能需求、设计风格、技术选型、测试部署及优化升级等内容,帮助你打造既美观又实用的网站。
187 4

推荐镜像

更多