python自动化系列之操作pdf的库PyPDF2

简介: 在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便

使用PyPDF2

PyPdf2中有两个模块,分别是:

  • 读取库 PDFFileReader
  • 操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation = pdf.getDocumentInfo() #获取文档信息
number_of_pages = pdf.getNumPages() #获取总页数

完整实例代码如下:

def read():
    '''读取pdf数据'''
    from PyPDF2 import PdfFileReader #引入reader
    pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
    #pdf = pdf.decrypt('password') #对加密的文件机密
    infomation = pdf.getDocumentInfo() #获取文档信息
    number_of_pages = pdf.getNumPages() #获取总页数

    txt = f'''{input_path} information:
    Author : {infomation.author},
    Creator : {infomation.creator},
    Producer : {infomation.producer},
    Subject : {infomation.subject},
    Title : {infomation.title},
    Number of pages : {number_of_pages}
    '''    
    print(txt)  #以上信息,除了页数,对于一下文件可能不存在
    #这个库不适合读取文档内容
    for i in range(0,number_of_pages):
        pageObject = pdf.getPage(i)
        #print(pageObject.extractText())

2、使用PdfFileWriter需要配合PdfFileReader

from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释:

def write():
    '''写入'''
    from PyPDF2 import PdfFileWriter,PdfFileReader
    pdfReader = PdfFileReader(input_path)
    pdfWriter = PdfFileWriter()
    # addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
    pdfWriter.addPage(pdfReader.getPage(0))
    # insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
    # insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
    pdfWriter.insertBlankPage(width=100,height=100)
    # addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
    # 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
    pdfWriter.addBlankPage()
    # 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
    # index指定插入位置 默认再最开始插入
    pdfWriter.insertPage(pdfReader.getPage(2))
    # addAttachment(fname, fdata) 在 PDF 中嵌入文件
    # pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
    print(pdfWriter.getNumPages())
    #加密
    #pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
    pdfWriter.write(open('H:/test_w.pdf','wb'))

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后,获取的每一页都会被转换为PageObject对象,对于Pdf的操作,实际就是在操作PageObject对象;

下面是PageObject对象中常用的方法:

PageObject的方法:
mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果
mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法,可以对page2页面进行旋转操作
mergeScaledPage(page2, scale, expand=False) 类似mergePage方法,可以对page2页面进行缩放操作
mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行平移操作
mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及缩放操作
mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转、缩放以及平移操作
mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及平移操作
mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行缩放以及平移操作
mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法,可以对page2页面进行矩阵转换操作
rotateClockwise(angle) 顺时针旋转页面,angle必须是 90 度的增量
rotateCounterClockwise(angle) 逆时针旋转页面,angle必须是 90 度的增量
scale(sx, sy) 缩放页面
scaleBy(factor) 按固定XY轴比例缩放页面
scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能:

可参考代码注释理解:

image.png

相关文章
|
8月前
|
存储 人工智能 测试技术
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
本文介绍如何使用LangChain结合DeepSeek实现多轮对话,测开人员可借此自动生成测试用例,提升自动化测试效率。
2035 125
如何使用LangChain的Python库结合DeepSeek进行多轮次对话?
|
8月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
798 0
|
7月前
|
数据可视化 关系型数据库 MySQL
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
本文详解基于Python的电影TOP250数据可视化大屏开发全流程,涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据,pandas存入MySQL,pyecharts实现柱状图、饼图、词云图、散点图等多种图表,并通过Page组件拖拽布局组合成大屏,支持多种主题切换,附完整源码与视频讲解。
769 4
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
|
7月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
583 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
7月前
|
存储 数据采集 监控
Python定时爬取新闻网站头条:从零到一的自动化实践
在信息爆炸时代,本文教你用Python定时爬取腾讯新闻头条,实现自动化监控。涵盖请求、解析、存储、去重、代理及异常通知,助你构建高效新闻采集系统,适用于金融、电商、媒体等场景。(238字)
1268 2
|
9月前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
640 18
|
9月前
|
机器学习/深度学习 API 异构计算
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。
907 0
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
|
8月前
|
数据采集 监控 Shell
无需Python:Shell脚本如何成为你的自动化爬虫引擎?
Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。
|
7月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
1197 62
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南

推荐镜像

更多