软件测试|教你用Python处理PDF文件（三）-阿里云开发者社区

软件测试|教你用Python处理PDF文件（三）

2023-08-09 189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 软件测试|教你用Python处理PDF文件（三）

前言

我们之前介绍了提取PDF文件中的文字内容，我们使用PyPDF2即可实现操作，但是如果PDF文件有图片的话，只提取文本的话无法把图片的内容一起提取出来，我们需要另外的脚本来实现对图片的提取。

环境准备

对于抽取PDF中的图片，我们使用的还是PyPDF2这个库，安装命令如下：

pip install PyPDF2

我们还是使用之前使用的过的，test2.pdf来用做例子。

使用实例

我们提取PDF文件中的图片的代码如下：

import PyPDF2
from PIL import Image


def extract_images_from_pdf(pdf_path, output_folder):
    pdf_file = open(pdf_path, 'rb')
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    image_count = 0
    for page_number in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_number]
        if '/XObject' in page['/Resources']:
            x_objects = page['/Resources']['/XObject'].get_object()
            for obj in x_objects:
                if x_objects[obj]['/Subtype'] == '/Image':
                    image = x_objects[obj]
                    if '/Filter' in image:
                        if image['/Filter'] == '/DCTDecode':
                            image_ext = 'jpg'
                        elif image['/Filter'] == '/JPXDecode':
                            image_ext = 'jp2'
                        else:
                            image_ext = 'png'
                    else:
                        image_ext = 'png'

                    image_data = image._data
                    image_name = f'image_{image_count}.{image_ext}'
                    image_path = f'{output_folder}/{image_name}'

                    with open(image_path, 'wb') as img_file:
                        img_file.write(image_data)

                    print(f'Saved image: {image_path}')
                    image_count += 1

    pdf_file.close()


# 使用示例
pdf_path = 'files/test2.pdf'  # PDF文件路径
output_folder = 'files'  # 图片输出的文件夹路径

extract_images_from_pdf(pdf_path, output_folder)

运行脚本，发现files文件夹新增了两个jpg文件，如下：

图片如下：

总结

本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作，后续我们将介绍提取PDF文件中的表格内容。

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

软件测试|教你用Python处理PDF文件（三）

前言

环境准备

使用实例

总结

热门文章

最新文章

相关课程

相关电子书

推荐镜像