Python编程--使用PyPDF解析PDF文件中的元数据-阿里云开发者社区

Python编程--使用PyPDF解析PDF文件中的元数据

2024-10-10 793

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python编程--使用PyPDF解析PDF文件中的元数据

Python编程–使用PyPDF解析PDF文件中的元数据
元数据
作为一种文件里非常明显可见的对象，元数据可以存在于文档、电子表格、图片、音频和视频文件中。创建这些文件的应用程序可能会把文档的作者、创建和修改时间、可能的更新版本和注释这类详细信息存储下来。例如，手机照相会把照片的GPS位置信息存下来，微软的Word程序也可能会保存文档的作者信息。

案例解析
互联网上至今还能下载到某黑客组织的某个成员的匿名发布的稿子–ANONOPS_The_Press_Release.pdf。匿名者在稿件中发布信息，组织号召要通过对涉及的一些机构进行分布式拒绝服务攻击（DDoS）以实现报复。这个稿子既没有签名，也没有标注消息来源，只是以PDF（Portable Document Format，便携式文档格式）文件的形式被发布出来。但是实际创建这个文档所用的程序在PDF元数据中记录了文档作者的名字。

PYPDF是一款很优秀的管理PDF文档的第三方实用程序，可以去http://pybrary.net/pyPdf/下载它。它允许提取文档中的内容，或对文档进行分割、合并、复制、加密和解密操作。若要提取元数据，我们可以使用.getDocumentInfo()方法，该方法会返回一个tuple数组，每个tuple中都含有对元数据元素的一个描述及它的值。逐一遍历这个数组，就能打印出PDF文档的所有元数据。

示例代码如下：

import pyPdf
from pyPdf import PdfFileReader

def printMeta(fileName):
    pdfFile = PdfFileReader(file(fileName, 'rb'))
    docInfo = pdfFile.getDocumentInfo()
    print('[*] PDF MetaData For: ' + str(fileName))

    for metaItem in docInfo:
        print(metaItem + ':' + docInfo[metaItem])

再添加一个OptionParser方法，让脚本只解析我们指定文件元数据，这样我们就有了一个能识别嵌入在PDF文档中元数据的工具。同样，我们也可以修改我们的脚本，去检查某个特定的元数据—指定的用户。此示例，帮助帮助希腊的执法官员搜索出所有“作者”这一元数据被标记为Alex Tapanaries的文档。源码如下：

# 导入各类模块
import pyPdf
import optparse
from pyPdf import PdfFileReader, PdfFileWriter


def printMeta(fileName):
    pdfFile = PdfFileReader(file(fileName, 'rb'))
    docInfo = pdfFile.getDocumentInfo()
    print('[*] PDF MetaData For: ' + str(fileName))

    for metaItem in docInfo:
        print(metaItem + ':' + docInfo[metaItem])

def main():
    parser = optparse.OptionParser('usage %prog -F <PDF file name>' )
    parser.add_option('-F', dest = 'filename', type = 'string', help = 'specify PDF  file name')
    (options, args) = parser.parse_args()
    fileName = options.filename
    if fileName == None:
        print(parser.usage)
        exit(0)
    else:
        printMeta(fileName)

if __name__ == '__main__':
    printMeta()

对匿名者网站发布的这个文件运行这个pdfReader脚本，我们就能看到导致希腊当局逮捕Tapanaries先生的元数据。

Python编程--使用PyPDF解析PDF文件中的元数据

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python编程--使用PyPDF解析PDF文件中的元数据

热门文章

最新文章

相关课程

相关电子书

推荐镜像