Java用xpdf库获取pdf文件的指定范围文本内容

简介: Java用xpdf库获取pdf文件的指定范围文本内容

概述
读取PDF文件的某一部分文本内容,可以使用开源项目xpdf。

从Java中调用xpdf,我们参照了《Java抽取Word,PDF的四种武器》文章最后提到的办法。

总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

系统基础环境要求
下面是对运行xpdf软件服务的计算机的要求:

l 您可以从以下位置下载并安装 xpdf分发版本-补丁3的Win32版本:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

l 还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

(更多下载信息参考http://www.foolabs.com/xpdf/download.html)。

调用示范
下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到C盘xpdf目录下,我们将以c:\xpdf作为xpdf的工作路径。

然后,请将xpdf-chinese-simplified.tar\xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入”-cfg xpdfrc2”来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc。

修改配置文件一:

并在这个xpdfrc文件最后加上这么一段话:

多加这么一段配置:

----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode Adobe-GB1 C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK C:/xpdf/chinese-simplified/GBK.unicodeMap

cMapDir Adobe-GB1 C:/xpdf/chinese-simplified/CMap

toUnicodeDir C:/xpdf/chinese-simplified/CMap

displayCIDFontTT Adobe-GB1 /usr/..../gkai00mp.ttf

----- end Chinese Simplified support package

注意Map文件的路径一定要正确。

修改配置文件二:

另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:

多加这么一段配置:

If set to "yes", text extraction will insert page

breaks (form feed characters) between pages. This

defaults to "yes".

textPageBreaks no

设置textPageBreaks为no的意思是:在PDF文档的两页之间不加入分页符号。

之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。

修改配置文件三:

配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncoding为UTF-8,而不是GB2312。

调用示范
下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc。

代码示范:

String PATH_TO_XPDF="C:\xpdf\pdftotext.exe";

           String filename="c:\\test.pdf";



             int Begin = 100;

             int End = 300;



             String strResponse = "";



           String[] cmd = new String[]

                { PATH_TO_XPDF,

                        "-cfg", "xpdfrc", "-q", filename, "-"};

           Process p = Runtime.getRuntime().exec(cmd);

           BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

           InputStreamReader reader = new InputStreamReader(bis, "UTF-8");





             if(Begin > 0)

             {

                  // 跳过Begin个字符

                  reader.skip(Begin);

             }





             // 本次要读取的字符数

             int nLengthRead = End - Begin;

             if(nLengthRead > 0)

             {

                  // 准备好缓冲区

                 char [] buf = new char[nLengthRead];

                  // 输出到缓冲区

                 int nLengthWriteToBuffer = reader.read(buf);

                 reader.close();



                  // nLengthWriteToBuffer就是当前读取到缓冲区的字符数

                  if(nLengthWriteToBuffer > 0)

                  {

                        // 只有nLengthWriteToBuffer大于0,才说明文档有内容

                        strResponse = new String(buf);

                  }

                  else

                  {

                        // 否则可能是到了文档结尾

                        strResponse = "PDF_EOF_OF_DOC";

                  }

             }



           System.out.println("\t\r\n" + strResponse);

//代码效果参考:http://www.zidongmutanji.com/bxxx/256070.html

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

相关文章
|
1天前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
75 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
2天前
|
存储 算法 Java
解锁“分享文件”高效密码:探秘 Java 二叉搜索树算法
在信息爆炸的时代,文件分享至关重要。二叉搜索树(BST)以其高效的查找性能,为文件分享优化提供了新路径。本文聚焦Java环境下BST的应用,介绍其基础结构、实现示例及进阶优化。BST通过有序节点快速定位文件,结合自平衡树、多线程和权限管理,大幅提升文件分享效率与安全性。代码示例展示了文件插入与查找的基本操作,适用于大规模并发场景,确保分享过程流畅高效。掌握BST算法,助力文件分享创新发展。
|
18天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
81 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
20天前
|
安全 druid Java
Java 访问数据库的奇妙之旅
本文介绍了Java访问数据库的几种常见方式
43 12
|
2月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
170 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
2月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
271 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
2月前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
64 16
|
20天前
|
前端开发 Java 开发工具
Git使用教程-将idea本地Java等文件配置到gitte上【保姆级教程】
本内容详细介绍了使用Git进行版本控制的全过程,涵盖从本地仓库创建到远程仓库配置,以及最终推送代码至远程仓库的步骤。
27 0
|
消息中间件 缓存 运维
憋了半个月的 PDF:精通 Java(七)
真诚的和大家说一句抱歉,因为最近家庭原因 + 我自己思想的懒惰,所以导致有一段时间没有更新技术文章,一直都在憋这一篇关于学习 Java 如何从入门到精通的文章,在没有发文的这段时间很煎熬,甚至无数次的想放弃写这篇文章,因为这篇文章不是很好写,我付出大量的时间和心血来收集大量的素材、研究大量的书本进而熔铸成这篇文章,希望对你有所帮助。
憋了半个月的 PDF:精通 Java(七)
|
缓存 NoSQL Java
憋了半个月的 PDF:精通 Java(六)
真诚的和大家说一句抱歉,因为最近家庭原因 + 我自己思想的懒惰,所以导致有一段时间没有更新技术文章,一直都在憋这一篇关于学习 Java 如何从入门到精通的文章,在没有发文的这段时间很煎熬,甚至无数次的想放弃写这篇文章,因为这篇文章不是很好写,我付出大量的时间和心血来收集大量的素材、研究大量的书本进而熔铸成这篇文章,希望对你有所帮助。
憋了半个月的 PDF:精通 Java(六)