安利3款Python三方库!轻松实现PDF转图片,最快的只需一行代码!

简介: 安利3款Python三方库!轻松实现PDF转图片,最快的只需一行代码!

大家有时候会不会有 PDF 转 图片 或是 图片 合成 PDF 的需求,尤其是一些扫描版的手稿、画册、字帖一类的的文档。

当大家苦于不知道找什么在线应用或软件来进行转换的时候,我们用 Python几行代码就可以实现 PDF转图片的需求了。


今天小圈给大家安利3个可以实现PDF转图片的Python库,不要 so easy 了!

  • ✅ PyMuPDF
  • ✅ pdfplumber
  • ✅ python-office


一、PyMuPDF


1、PyMuPDF简介


该三方库从命名形式中就可以看出,PyMuPDFMuPDF 的Python接口形式。


MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。这个工具很小,速度很快,而且很完整。它支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。


使用PyMuPDF,你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外,大约10种流行的图像格式也可以像文档一样处理“.png”,“.jpg”,“.bmp”,“.tiff”等。


2、安装


PyMuPDF 可以通过Python pip 官方方式安装,也可以下载离线 wheels包进行安装。


支持平台:Windows、Linux、Mac OS


pip安装命令:

pip install PyMuPDF

导入命令:

import fitz

关于命名fitz的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的: MuPDF的原始渲染库被称为Libart。

在Artifex软件获得MuPDF项目后,开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目,以取代老化的Ghostscript图形库,但却成为了MuPDF的渲染引擎。


3、使用方法

验证pymupdf 模块是否安装成功

import fitz
print(fitz.__doc__)

输出:

PyMuPDF 1.21.0: Python bindings for the MuPDF 1.21.0 library.
Version date: 2022-11-08 00:00:01.
Built for Python 3.8 on darwin (64-bit).

加载PDF文件

# 加载pdf 文件
doc = fitz.open("/test/demo.pdf")

获取Document 属性和方法

# 1、获取pdf 页数
pageCount = doc.page_count
print("pdf 页数: ", pageCount)
 
# 2、获取pdf 元数据
metaData = doc.metadata
print("pdf 元数据: ", metaData)
 
# 3、获取pdf 目录信息
toc = doc.get_toc()
print("pdf 目录:", toc)

Page 加载方法

page = doc.load_page(pno) # 加载每页数据
page = doc[pno] # 加载每页数据

页面展示/页面图像保存到文件中

# Page 页面-光栅图像
pix = page.get_pixmap()
print("打印页面图像对象:", pix)
# 保存光栅图像图像,需要依赖第三方框架:Pillow
pix.pil_save("page-%i.png" % page.number)

PDF保存为图片完整代码:

import os
import fitz 
def covert2pic(file_path, zoom, png_path):
    doc = fitz.open(file_path)
    total = doc.page_count
    for pg in range(total):
        page = doc[pg]
        zoom = int(zoom)  # 值越大,分辨率越高,文件越清晰
        rotate = int(0)
        trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).prerotate(rotate)
        pm = page.get_pixmap(matrix=trans, alpha=False)
        if not os.path.exists(png_path):
            os.mkdir(png_path)
        save = os.path.join(png_path, '%s.png' %(pg+1))
        pm.save(save)
    doc.close()
if __name__ == "__main__":
    pdfPath = 'demo.pdf'
    imagePath = './imgs'
    covert2pic(pdfPath, 200, imagePath)

效果:

image.png

PyMuPDF 还提供了丰富的功能来操作PDF文件,如读取、写入、分割、合并、旋转、裁剪等。此外,它还支持加密和解密PDF文档,以及提取文本、图像和元数据等信息。


至于其他进阶用法,小圈下次专门写个文章进行分享,有兴趣的同学可以先去使用尝试。


二、pdfplumber


1、pdfplumber简介


pdfplumber 也是一个可以处理pdf格式信息的库,可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。


主要功能:

  • 可返回csv或json格式的信息: pdf级和页面级的元数据以及字典的嵌套属性。
  • 可以指定页面以及页面范围进行解析: 以空格分隔、1索引的页面列表或带连字符的页面范围。例如,1, 11-15将返回第 1、11、12、13、14 和 15 页的数据。
  • 可以指定解析的类型: 比如char、rect、line、curve、image或annot等,默认为所有可用。


最终返回的是一个 pdfplumber.Page对象


2、安装


跟PyMuPDF一样,支持使用pip安装,安装命令:

pip install pdfplumber

导入命令:

import pdfplumber

3、使用方法


pdfplumber有2个基础类:PDF和Page


PDF用来处理整个文档,Page用来处理整个页面

用法简介
pdfplumber.PDF .metadata,获取pdf基础信息,返回字典格式,包含作者、创建时间等。.pages,返回pdfplumber.Page实例的列表,每一个实例包含pdf每一页的信息
pdfplumber.Page pdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格等


读取pdf文件,并输出pdf文件的基础信息

import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open('demo.pdf')
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print('pdf文件的基础信息:\n', meta_data)
print('pdf共%s页' % page_con)

pdfplumber转图片完整代码:

import pdfplumber
def covert2pic_v2(file_path, png_path):
    with pdfplumber.open(file_path) as pdf:
        # pdf.pages默认为pdf全部页
        # 可通过切片的方式选择需要转换的1页或几页,如前2页:pdf.pages[:2]
        for i, page in enumerate(pdf.pages[:2]):
            im = page.to_image(resolution=150)
            # 保存
            save = os.path.join(png_path, '%s.png' % (int(i) + 1))
            im.save(save)
            print('----分割线,第%d页----' % (int(i) + 1))

效果跟PyMuPDF一样,这里就不展示了。


三、Python-Office


1、Python-Office简介


Python-office 是一个Python 自动化办公第三方库,能解决大部分自动化办公的问题。而且每 个功能只需一行代码,不需要小白用户学习 Python 知识,做到了真正的开箱即用。


2、安装


安装命令

pip install python-office

有时候易安装失败,小圈就遇到了,所以该库只能简单介绍下,请朋友们见谅哈!偷下懒!


3、使用方法

# 导入这个库:python-office,简写为office
import office
# 一行代码,实现转换
office.pdf.pdf2imgs(
    pdf_path='demo.pdf',
    out_dir='./imgs'
)
# 参数说明:
# pdf_path = 你的PDF文件的地址 
# out_dir = 转换后的图片存放地址,可以不填,默认是PDF的地址

1行Python代码,实现PDF转图片,直接解决了!是不是还没体验够就完成了!


相关文章
|
6天前
|
人工智能 数据挖掘 数据处理
揭秘Python编程之美:从基础到进阶的代码实践之旅
【9月更文挑战第14天】本文将带领读者深入探索Python编程语言的魅力所在。通过简明扼要的示例,我们将揭示Python如何简化复杂问题,提升编程效率。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编码世界的大门。让我们开始这段充满智慧和乐趣的Python编程之旅吧!
|
4天前
|
设计模式 开发框架 缓存
探索Python中的装饰器:简化代码,增强功能
【9月更文挑战第16天】在Python的世界里,装饰器宛如一位巧手魔术师,轻轻一挥魔杖,便能让我们的函数和类焕发新生。本文将带你领略装饰器的魔力,从基础概念到实战应用,一步步解锁装饰器的强大潜能。让我们一起踏上这段奇妙的旅程,探索如何用装饰器简化代码,增强功能。
|
6天前
|
XML 数据格式 Python
Python技巧:将HTML实体代码转换为文本的方法
在选择方法时,考虑到实际的应用场景和需求是很重要的。通常,使用标准库的 `html`模块就足以满足大多数基本需求。对于复杂的HTML文档处理,则可能需要 `BeautifulSoup`。而在特殊场合,或者为了最大限度的控制和定制化,可以考虑正则表达式。
21 12
|
6天前
|
测试技术 开发者 Python
探索Python中的装饰器:简化代码,增强功能
【9月更文挑战第14天】在编程世界中,我们总是寻找使代码更简洁、更强大的方法。Python的装饰器正是这样一项工具,它允许我们在不修改原有函数代码的情况下,增加额外的功能。本文将通过实际示例,引导你理解装饰器的基本概念,展示如何创建和应用它们,以及如何利用装饰器简化日常编程任务。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和技巧,让你的代码更加高效和优雅。
21 12
|
7天前
|
缓存 开发者 Python
探索Python中的装饰器:简化代码,增强功能
【9月更文挑战第13天】本文深入探讨了Python中一个强大而常被误解的特性——装饰器。我们将从基础概念入手,逐步揭示其背后的原理,并通过实际示例展示如何利用装饰器来简化代码和扩展函数功能。文章不仅为初学者提供了清晰的入门指南,还为有经验的开发者展示了高级用法,旨在帮助读者更好地理解和运用装饰器,以提升编码效率和程序的可维护性。
25 10
|
4天前
|
测试技术 Python
Python中的装饰器:简化代码的魔法
【9月更文挑战第16天】在Python编程的世界里,装饰器就像是一把瑞士军刀,它们为函数和类赋予了额外的超能力。本文将带你探索装饰器的秘密,了解如何利用这一工具来简化代码、增强可读性并提升效率。从基础概念到实际案例,我们将一步步揭示装饰器的神秘面纱,让你的代码更加优雅和强大。
|
3天前
|
设计模式 缓存 开发者
探索Python中的装饰器:提升代码复用性的利器
本文深入探讨了Python中强大的装饰器功能,揭示了其如何通过元编程和闭包等技术手段,优雅地实现代码的复用与扩展。从基本概念到高级应用,我们将一步步揭开装饰器背后的奥秘,并通过实例展示其在实际项目开发中的巨大价值。无论是想要简化函数调用流程、增强函数功能,还是实现AOP(面向切面编程),掌握装饰器都是每位Python开发者必备的技能。
|
5天前
|
缓存 开发者 Python
探索Python中的装饰器:简化代码,增强功能
【9月更文挑战第15天】本文将深入探讨Python中一个强大但常被误解的特性——装饰器。我们将从基础概念出发,逐步揭示装饰器如何简化代码结构,增加函数功能而无需修改其核心逻辑。通过具体示例,你将学会如何创建自定义装饰器,以及如何利用它们来管理权限、记录日志等。无论你是初学者还是有经验的开发者,这篇文章都将为你打开一扇提高代码效率和可维护性的新窗口。
|
3天前
|
缓存 监控 测试技术
探索Python中的装饰器:提升代码的灵活性和可维护性
本文深入探讨Python装饰器的概念、用法及优势。通过实例讲解如何利用装饰器增强函数功能、日志记录及性能测试,旨在帮助读者掌握这一强大的工具,提升编程效率与代码质量。
|
3天前
|
缓存 开发者 Python
探索Python中的装饰器:提升代码复用性与可读性
本文旨在深入探讨Python装饰器的概念、实现及其应用。通过实例分析,本文展示了如何利用装饰器提高代码的模块化和重用性,从而优化开发流程。我们将从装饰器的基本定义入手,逐步解析其工作机制,并通过案例展示如何在实际项目中有效利用装饰器。
10 0