Python操作PDF全总结|pdfplumber&PyPDF2-阿里云开发者社区

Python操作PDF全总结|pdfplumber&PyPDF2

2022-10-10 398

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

密钥管理服务KMS，1000个密钥，100个凭据，1个月

简介： Python操作PDF全总结|pdfplumber&PyPDF2

Python在自动化办公方面有很多实用的第三方库，可以很方便的处理word、excel、ppt、pdf文件，今天我们就学习一下Python处理PDF文档的知识，Python处理pdf有很多第三方库，这里先给大家介绍最常用的两个库「pdfplumber」、「pypdf2」。

「pdfplumber：」

pdfplumber库按页处理 pdf ，获取页面文字，提取表格等操作。

学习文档：https://github.com/jsvine/pdfplumber

「pypdf2：」

PyPDF2 是一个纯 Python PDF 库，可以读取文档信息（标题，作者等）、写入、分割、合并PDF文档，它还可以对pdf文档进行添加水印、加密解密等。

官方文档：https://pythonhosted.org/PyPDF2

安装：

pip install pypdf2

pip install pdfplumber

pdfplumber

提取PDF文字

「提取单页pdf文字」

# 提取pdf文字
import pdfplumber
with pdfplumber.open("D:\\pdffiles\\Python编码规范中文版.pdf") as pdf:
    page01 = pdf.pages[0] #指定页码
    text = page01.extract_text()#提取文本
    print(text)

「提取所有页pdf文字」

import pdfplumber
with pdfplumber.open("D:\\pdffiles\\Python编码规范中文版.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()#提取文本
        print(text)

「提取所有pdf文字并写入文本中」

import pdfplumber
with pdfplumber.open("D:\\pdffiles\\Python编码规范中文版.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()#提取文本
        txt_file = open("D:\\pdffiles\\Python编码规范中文版.txt",mode='a',encoding='utf-8')
        txt_file.write(text)

提取PDF表格

「提取表格」

# 提取pdf表格
import pdfplumber
with pdfplumber.open("D:\\pdffiles\\人力资源部岗位编制.pdf") as pdf:
    page01 = pdf.pages[0] #指定页码
    table1 = page01.extract_table()#提取单个表格
    # table2 = page01.extract_tables()#提取多个表格
    print(table1)

「提取表格，保存为excel文件」

import pdfplumber
from openpyxl import Workbook #保存表格，需要安装openpyxl
with pdfplumber.open("D:\\pdffiles\\人力资源部岗位编制.pdf") as pdf:
    page01 = pdf.pages[0]
    table = page01.extract_table()
    workbook = Workbook()
    sheet = workbook.active
    for row in table:
        sheet.append(row)
    workbook.save(filename="D:\\pdffiles\\人力资源部岗位编制.xlsx")

PyPDF2

PyPDF2 中有两个最常用的类：PdfFileReader和PdfFileWriter，分别用于读取 PDF 和写入 PDF。其中PdfFileReader传入参数可以是一个打开的文件对象，也可以是表示文件路径的字符串。而PdfFileWriter则必须传入一个以写方式打开的文件对象。

「PdfFileReader 对象的属性和方法」

「PdfFileWriter 对象的属性和方法」

分割PDF

from PyPDF2 import  PdfFileReader, PdfFileWriter
file_reader = PdfFileReader("D:\\pdffiles\\Python编码规范中文版.pdf")
# getNumPages() 获取总页数
for page in range(file_reader.getNumPages()):
    # 实例化对象
    file_writer = PdfFileWriter()
    # 将遍历的每一页添加到实例化对象中
    file_writer.addPage(file_reader.getPage(page))
    with open("D:\\pdffiles\\{}.pdf".format(page),'wb') as out:
        file_writer.write(out)

合并PDF

将上述分割的pdf合并成一个文件

「示例代码」

from PyPDF2 import  PdfFileReader, PdfFileWriter
file_writer = PdfFileWriter()
for page in range(34):
    # 循环读取需要合并pdf文件
    file_reader = PdfFileReader("D:\\pdffiles\\{}.pdf".format(page))
    # 遍历每个pdf的每一页
    for page in range(file_reader.getNumPages()):
        # 写入实例化对象中
        file_writer.addPage(file_reader.getPage(page))

with open("D:\\pdffiles\\合并.pdf",'wb') as out:
    file_writer.write(out)

PDF旋转

# 旋转pdf，只能按照90度的倍数旋转
from PyPDF2 import  PdfFileReader, PdfFileWriter
file_reader = PdfFileReader("D:\\pdffiles\\Python编码规范中文版.pdf")
file_writer = PdfFileWriter()
page = file_reader.getPage(0).rotateClockwise(90) # 第1页顺时针旋转90度
file_writer.addPage(page) # 写入
page = file_reader.getPage(1).rotateCounterClockwise(90) # 第2页逆时针旋转90度
file_writer.addPage(page) # 写入
with open("D:\\pdffiles\\旋转.pdf",'wb') as out:
    file_writer.write(out)

PDF加密解密

「添加密码」

from PyPDF2 import  PdfFileReader, PdfFileWriter
file_reader = PdfFileReader("D:\\pdffiles\\Python编码规范中文版.pdf")
file_writer = PdfFileWriter()
for page in range(file_reader.getNumPages()):
    file_writer.addPage(file_reader.getPage(page))

file_writer.encrypt('123456') # 设置密码
with open("D:\\pdffiles\\加密后.pdf",'wb') as out:
    file_writer.write(out)

打开文件，提示输入密码

「解除密码」

from PyPDF2 import  PdfFileReader, PdfFileWriter
file_reader = PdfFileReader("D:\\pdffiles\\加密后.pdf")
file_reader.decrypt('123456')
file_writer = PdfFileWriter()
for page in range(file_reader.getNumPages()):
    file_writer.addPage(file_reader.getPage(page))

with open("D:\\pdffiles\\解密后.pdf",'wb') as out:
    file_writer.write(out)

PDF添加水印

首先准备一个水印文档，可以用空白word添加图片或者文字转成pdf文件。

「示例代码」

# 添加水印
from PyPDF2 import  PdfFileReader, PdfFileWriter
from copy import copy
sy = PdfFileReader("D:\\pdffiles\\水印.pdf")
mark_page = sy.getPage(0) # 水印所在的页数
# 读取添加水印的文件
file_reader = PdfFileReader("D:\\pdffiles\\Python编码规范中文版.pdf")
file_writer = PdfFileWriter()

for page in range(file_reader.getNumPages()):
    # 读取需要添加水印每一页pdf
    source_page = file_reader.getPage(page)
    new_page = copy(mark_page) #
    new_page.mergePage(source_page) # new_page(水印)在下面，source_page原文在上面
    file_writer.addPage(new_page)

with open("D:\\pdffiles\\添加水印后.pdf",'wb') as out:
    file_writer.write(out)

添加水印后的文档：

Python操作PDF全总结|pdfplumber&PyPDF2

安装：

pdfplumber

提取PDF文字

提取PDF表格

PyPDF2

分割PDF

合并PDF

PDF旋转

PDF加密解密

PDF添加水印

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

Python操作PDF全总结|pdfplumber&PyPDF2

安装：

pdfplumber

提取PDF文字

提取PDF表格

PyPDF2

分割PDF

合并PDF

PDF旋转

PDF加密解密

PDF添加水印

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像