python自动化系列之操作pdf的库PyPDF2

简介: 在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便

使用PyPDF2

PyPdf2中有两个模块,分别是:

  • 读取库 PDFFileReader
  • 操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation = pdf.getDocumentInfo() #获取文档信息
number_of_pages = pdf.getNumPages() #获取总页数

完整实例代码如下:

def read():
    '''读取pdf数据'''
    from PyPDF2 import PdfFileReader #引入reader
    pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
    #pdf = pdf.decrypt('password') #对加密的文件机密
    infomation = pdf.getDocumentInfo() #获取文档信息
    number_of_pages = pdf.getNumPages() #获取总页数

    txt = f'''{input_path} information:
    Author : {infomation.author},
    Creator : {infomation.creator},
    Producer : {infomation.producer},
    Subject : {infomation.subject},
    Title : {infomation.title},
    Number of pages : {number_of_pages}
    '''    
    print(txt)  #以上信息,除了页数,对于一下文件可能不存在
    #这个库不适合读取文档内容
    for i in range(0,number_of_pages):
        pageObject = pdf.getPage(i)
        #print(pageObject.extractText())

2、使用PdfFileWriter需要配合PdfFileReader

from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释:

def write():
    '''写入'''
    from PyPDF2 import PdfFileWriter,PdfFileReader
    pdfReader = PdfFileReader(input_path)
    pdfWriter = PdfFileWriter()
    # addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
    pdfWriter.addPage(pdfReader.getPage(0))
    # insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
    # insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
    pdfWriter.insertBlankPage(width=100,height=100)
    # addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
    # 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
    pdfWriter.addBlankPage()
    # 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
    # index指定插入位置 默认再最开始插入
    pdfWriter.insertPage(pdfReader.getPage(2))
    # addAttachment(fname, fdata) 在 PDF 中嵌入文件
    # pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
    print(pdfWriter.getNumPages())
    #加密
    #pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
    pdfWriter.write(open('H:/test_w.pdf','wb'))

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后,获取的每一页都会被转换为PageObject对象,对于Pdf的操作,实际就是在操作PageObject对象;

下面是PageObject对象中常用的方法:

PageObject的方法:
mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果
mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法,可以对page2页面进行旋转操作
mergeScaledPage(page2, scale, expand=False) 类似mergePage方法,可以对page2页面进行缩放操作
mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行平移操作
mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及缩放操作
mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转、缩放以及平移操作
mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及平移操作
mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行缩放以及平移操作
mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法,可以对page2页面进行矩阵转换操作
rotateClockwise(angle) 顺时针旋转页面,angle必须是 90 度的增量
rotateCounterClockwise(angle) 逆时针旋转页面,angle必须是 90 度的增量
scale(sx, sy) 缩放页面
scaleBy(factor) 按固定XY轴比例缩放页面
scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能:

可参考代码注释理解:

image.png

相关文章
|
1月前
|
搜索推荐 Python
使用Python自动化生成物业通知单
本文介绍如何使用Python结合Pandas和python-docx库自动化生成物业通知单。通过读取Excel数据并填充至Word模板,实现高效准确的通知单批量制作。包括环境准备、代码解析及效果展示,适用于物业管理场景。
64 14
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
130 10
|
12天前
|
Python
自动化微信朋友圈:Python脚本实现自动发布动态
本文介绍如何使用Python脚本自动化发布微信朋友圈动态,节省手动输入的时间。主要依赖`pyautogui`、`time`、`pyperclip`等库,通过模拟鼠标和键盘操作实现自动发布。代码涵盖打开微信、定位朋友圈、准备输入框、模拟打字等功能。虽然该方法能提高效率,但需注意可能违反微信使用条款,存在风险。定期更新脚本以适应微信界面变化也很重要。
118 61
|
4天前
|
存储 安全 数据可视化
用Python实现简单的任务自动化
本文介绍如何使用Python实现任务自动化,提高效率和准确性。通过三个实用案例展示:1. 使用`smtplib`和`schedule`库自动发送邮件提醒;2. 利用`shutil`和`os`库自动备份文件;3. 借助`requests`库自动下载网页内容。每个案例包含详细代码和解释,并附带注意事项。掌握这些技能有助于个人和企业优化流程、节约成本。
28 3
|
8天前
|
Web App开发 计算机视觉 开发者
Ruby自动化:用Watir库获取YouTube视频链接
Ruby自动化:用Watir库获取YouTube视频链接
|
24天前
|
JSON 数据可视化 测试技术
python+requests接口自动化框架的实现
通过以上步骤,我们构建了一个基本的Python+Requests接口自动化测试框架。这个框架具有良好的扩展性,可以根据实际需求进行功能扩展和优化。它不仅能提高测试效率,还能保证接口的稳定性和可靠性,为软件质量提供有力保障。
56 7
|
1月前
|
Android开发 开发者 Python
通过标签清理微信好友:Python自动化脚本解析
微信已成为日常生活中的重要社交工具,但随着使用时间增长,好友列表可能变得臃肿。本文介绍了一个基于 Python 的自动化脚本,利用 `uiautomator2` 库,通过模拟用户操作实现根据标签批量清理微信好友的功能。脚本包括环境准备、类定义、方法实现等部分,详细解析了如何通过标签筛选并删除好友,适合需要批量管理微信好友的用户。
58 7
|
1月前
|
安全 API 文件存储
Yagmail邮件发送库:如何用Python实现自动化邮件营销?
本文详细介绍了如何使用Yagmail库实现自动化邮件营销。Yagmail是一个简洁强大的Python库,能简化邮件发送流程,支持文本、HTML邮件及附件发送,适用于数字营销场景。文章涵盖了Yagmail的基本使用、高级功能、案例分析及最佳实践,帮助读者轻松上手。
37 4
|
1月前
|
敏捷开发 测试技术 持续交付
自动化测试之美:从零开始搭建你的Python测试框架
在软件开发的马拉松赛道上,自动化测试是那个能让你保持节奏、避免跌宕起伏的神奇小助手。本文将带你走进自动化测试的世界,用Python这把钥匙,解锁高效、可靠的测试框架之门。你将学会如何步步为营,构建属于自己的测试庇护所,让代码质量成为晨跑时清新的空气,而不是雾霾中的忧虑。让我们一起摆脱手动测试的繁琐枷锁,拥抱自动化带来的自由吧!
|
2月前
|
监控 数据挖掘 数据安全/隐私保护
Python脚本:自动化下载视频的日志记录
Python脚本:自动化下载视频的日志记录