Python编程：利用ImageMagick转换PDF为图片并识别提取图表

2021-11-23 476

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python编程：利用ImageMagick转换PDF为图片并识别提取图表

思路是这样的：

pdf -> image -> 识别其中的图表 -> 通过PIL截取图片

整个过程尝试了很多方式，最终效果不是很完美，还需要继续探索

包括以下开源库

Tabula

前端截图提取表格数据，效果还可以，使用简单

使用步骤：

如果是安装python的第三方模块，使用命令：

pip install tabula-py

ImageMagick

可以进行图片格式转换，pdf转图片

1、安装ImageMagick

mac

brew install ImageMagick

Linux

yum install ImageMagick  # 安装
yum remove ImageMagick  # 卸载

或者：

官网下载对应平台的压缩包：https://www.imagemagick.org/script/download.php

2、安装ghostscript：

brew install ghostscript

配置ImageMagick环境变量vim ~/.bash_profile

export MAGICK_HOME=/Users/qmp/Applications/ImageMagick-7.0.8
export PATH="$MAGICK_HOME/bin:$PATH"
export DYLD_LIBRARY_PATH="$MAGICK_HOME/lib/"

source ~/.bash_profile

命令行测试

convert -version
convert a.jpg a.png
convert -limit thread 1 names.pdf -background white -alpha remove -colorspace RGB  -colorspace sRGB out.jpg

提高图片质量

$ convert -density 300 -quality 100 test.pdf 1.png

参数解析:

-density 300

图像每英寸面积内的像素点数，数值越高图片质量越高

-quality 100

这个为转换png时的压缩率，100表示不压缩

参数设置：

https://www.imagemagick.org/www/script/convert.php

python库wand

支持ImageMagick接口，只支持6版本，而ImageMagick最新为7版本，Mac上尝试安装不成功

http://docs.wand-py.org/

网络资源

pdf转图片：

http://app.xunjiepdf.com/pdf2jpg

http://pdftoword.55.la/pdf-to-jpg/

百度ai通用图像分析：

https://ai.baidu.com/tech/imagerecognition/general

完整过程

先使用ImageMagick将pdf文件转为png图片格式

import os
pdfname = "names.pdf"
os.makedirs("out", exist_ok=True)
cmd = (
    "source ~/.bash_profile; "
    "convert "
    "-limit thread 1 {} "
    "-background white "
    "-alpha remove "
    "-colorspace RGB  "
    "-colorspace sRGB "
    "out/out.jpg"
).format(pdfname)
result = os.popen(cmd)
print(result.read())

通过百度AI接口将图片中的主物体识别出来，获取坐标

from aip import AipImageClassify
""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'
filename = "name.png"
client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)
with open(filename, "rb") as f:
    image = f.read()
result = client.objectDetect(image)
print(result)
data = result.get("result")

通过百度识别出来的坐标，使用PIL将需要的图片截取出来

width = data.get("width")
height = data.get("height")
top = data.get("top")
left = data.get("left")
from PIL import Image
im = Image.open(filename)
box = (left, top, left + width, top + height)
region = im.crop(box)
region.save("cutting.jpg")

参考：

Python编程：利用ImageMagick转换PDF为图片并识别提取图表

Tabula

ImageMagick

python库wand

网络资源

完整过程

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python编程：利用ImageMagick转换PDF为图片并识别提取图表

Tabula

ImageMagick

python库wand

网络资源

完整过程

热门文章

最新文章

相关课程

相关电子书

推荐镜像