python自动化系列之操作pdf的库PyPDF2-阿里云开发者社区

python自动化系列之操作pdf的库PyPDF2

2022-07-04 1632

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2

PDF是Portable Document Format的简称，意为“可携带文档格式”，是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件，其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块，现在最常用的版本是PyPDF2;
需要注意的是，这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库，可以读取文档信息（标题，作者等）、写入、分割、合并PDF文档，它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本：
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode，可以直接选择打开“终端”菜单，进行库的安装和程序的运行；非常的方便

使用PyPDF2

PyPdf2中有两个模块，分别是:

读取库 PDFFileReader
操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息，还可以获取到每一页pdf并加载为PageObject对象；

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象，传入文件路径
infomation = pdf.getDocumentInfo() #获取文档信息
number_of_pages = pdf.getNumPages() #获取总页数

完整实例代码如下：

def read():
    '''读取pdf数据'''
    from PyPDF2 import PdfFileReader #引入reader
    pdf = PdfFileReader(input_path) #初始化一个reader对象，传入文件路径
    #pdf = pdf.decrypt('password') #对加密的文件机密
    infomation = pdf.getDocumentInfo() #获取文档信息
    number_of_pages = pdf.getNumPages() #获取总页数

    txt = f'''{input_path} information:
    Author : {infomation.author},
    Creator : {infomation.creator},
    Producer : {infomation.producer},
    Subject : {infomation.subject},
    Title : {infomation.title},
    Number of pages : {number_of_pages}
    '''    
    print(txt)  #以上信息，除了页数，对于一下文件可能不存在
    #这个库不适合读取文档内容
    for i in range(0,number_of_pages):
        pageObject = pdf.getPage(i)
        #print(pageObject.extractText())

2、使用PdfFileWriter需要配合PdfFileReader

from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释：

def write():
    '''写入'''
    from PyPDF2 import PdfFileWriter,PdfFileReader
    pdfReader = PdfFileReader(input_path)
    pdfWriter = PdfFileWriter()
    # addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
    pdfWriter.addPage(pdfReader.getPage(0))
    # insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
    # insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
    pdfWriter.insertBlankPage(width=100,height=100)
    # addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
    # 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
    pdfWriter.addBlankPage()
    # 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
    # index指定插入位置 默认再最开始插入
    pdfWriter.insertPage(pdfReader.getPage(2))
    # addAttachment(fname, fdata) 在 PDF 中嵌入文件
    # pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
    print(pdfWriter.getNumPages())
    #加密
    #pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
    pdfWriter.write(open('H:/test_w.pdf','wb'))

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后，获取的每一页都会被转换为PageObject对象，对于Pdf的操作，实际就是在操作PageObject对象；

下面是PageObject对象中常用的方法：

PageObject的方法：
mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果
mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法，可以对page2页面进行旋转操作
mergeScaledPage(page2, scale, expand=False) 类似mergePage方法，可以对page2页面进行缩放操作
mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法，可以对page2页面进行平移操作
mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法，可以对page2页面进行旋转以及缩放操作
mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法，可以对page2页面进行旋转、缩放以及平移操作
mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法，可以对page2页面进行旋转以及平移操作
mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法，可以对page2页面进行缩放以及平移操作
mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法，可以对page2页面进行矩阵转换操作
rotateClockwise(angle) 顺时针旋转页面，angle必须是 90 度的增量
rotateCounterClockwise(angle) 逆时针旋转页面，angle必须是 90 度的增量
scale(sx, sy) 缩放页面
scaleBy(factor) 按固定XY轴比例缩放页面
scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能：

可参考代码注释理解：

python自动化系列之操作pdf的库PyPDF2

PyPDF2介绍

安装PyPDF2

使用PyPDF2

实现一个合并pdf文件的功能：

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python自动化系列之操作pdf的库PyPDF2

PyPDF2介绍

安装PyPDF2

使用PyPDF2

实现一个合并pdf文件的功能：

热门文章

最新文章

相关课程

相关电子书

推荐镜像