shutil：更优雅地拷贝文件-阿里云开发者社区

楔子

shutil 是一个 Python 内置模块，该模块对文件的复制、删除和压缩等操作都提供了非常方便的支持。

下面来详细介绍一下该模块的用法。

chown：更改指定路径的所有者用户（组）

函数原型：

shutil.chown(path, user=None, group=None)

参数含义如下：

path：指定要操作的路径；
user：指定所有者，可以是系统用户名或者 UID，如果用户不存在则报错 "没有此用户"；
group：表示组

该方法只适用于 Unix 系统，下面演示一下。

>>> import shutil
>>> import pwd  # Unix
>>> import os
>>> 
>>> uid = os.stat("/home/lighthouse").st_uid
>>> pwd.getpwuid(uid)
pwd.struct_passwd(pw_name='lighthouse', 
                  pw_passwd='x', 
                  pw_uid=1000, 
                  pw_gid=1000, 
                  pw_gecos='', 
                  pw_dir='/home/lighthouse', 
                  pw_shell='/bin/bash')
# 将所有者改成 root
>>> shutil.chown("/home/lighthouse", user="root")
# 再次查看，发现所有者已经被修改了
>>> uid = os.stat("/home/lighthouse").st_uid
>>> pwd.getpwuid(uid)
pwd.struct_passwd(pw_name='root', 
                  pw_passwd='x', 
                  pw_uid=0, 
                  pw_gid=0, 
                  pw_gecos='root', 
                  pw_dir='/root', 
                  pw_shell='/bin/bash')

copy：复制文件

copy 函数可以将一个文件复制为另一个文件。

函数原型：

shutil.copy(src, dst, *, follow_symlinks=True)

参数含义如下：

src：文件的路径，注意：必须是文件，如果是目录则报出权限错误；
dst：文件或目录的路径，如果是一个已经存在的目录，那么会将 src 拷贝到该目录中；否则会创建相应的文件；
follow_symlinks：表示是否遵循符号链接，默认为 True。如果为 True 则复制文件，为 False、并且 src 为软连接，则创建一个新的软连接；

该函数会返回目标路径，即新创建的文件的路径。

import shutil
shutil.copy("1.txt", "test")

如果 test 存在并且是目录，那么将 1.txt 拷贝到 test 目录中；如果 test 不存在，那么创建一个名为 test 的文件，内容和 1.txt 一致；如果 test 存在并且不是目录，那么会把已存在的 test 文件覆盖掉，此时需要具备对 test 的写权限，否则会报出权限错误：PermissionError。

另外使用 copy 复制文件时，文件的元信息（创建时间、修改时间）不会被保留，相当于创建了新文件。如果要保留文件的元信息，需要使用 copy2 函数（和 copy 函数用法一致，区别就是前者不保留文件元信息、后者会保留）。

copyfile：复制文件

参数和 copy、copy2 完全一致，只不过 copyflle 的 dst 如果已存在，那么必须是文件。

# 如果 test 存在并且是目录，会报错
# PermissionError: [Errno 13] Permission denied: 'test'
shutil.copyfile("1.txt", "test")
# 如果 test 不存在
# 那么会创建一个名为 test 的文件，内容和 1.txt 一致
# 如果 test 存在并且不是目录，那么会把原来的文件覆盖掉
shutil.copyfile("1.txt", "test")

比较简单，可以自己试一下，所以 copy 要比 copyfile 更高级一些。copyfile 要求 dst 存在时必须是文件，而 copy 则允许 dst 是目录，会自动将文件拷贝到目录中。

使用 copyfile 同样需要写权限，并且 src 和 dst 不能是同一个文件，否则会报错：SameFileError。

除了 copyfile 之外，还有一个更加低级的 copyfileobj。copyfileobj 也是拷贝，接收三个参数：fsrc、fdst、length，前两个参数和 copy 类似，只不过 fsrc 和 fdst 都必须是打开的文件对象，从名字上也能看出。至于第三个参数 length 表示缓冲区，默认是 16 * 1024 字节，如果为负数代表不走缓冲区，而是直接复制。

import shutil
from io import StringIO
buf1 = StringIO()
buf2 = StringIO()
# buf1 里面写入一些内容
buf1.write("古明地觉")
# 调整指针，移到开头，否则读取不到内容
buf1.seek(0)
# 将 buf1 的内容拷贝到 buf2 中
shutil.copyfileobj(buf1, buf2)
# 查看 buf2 的内容
print(buf2.getvalue())  # 古明地觉

虽然 copyfileobj 比较低级，但是它的速度也更快。当复制大文件时，采用 copyfileobj 会更有效率，复制小文件则使用 copyfile 会更方便一些。

copymode：复制权限位

参数和 copy 函数也完全相同，只不过它是将一个文件的权限复制给另一个文件。比如 A 文件是只读，那么复制给 B 之后 B 也是只读，但是 A 的内容不会复制给 B，因为 copymode 只是复制权限。

除了 copymode 还有一个 copystat，参数也是一样的，只不过它除了复制权限之外还复制最后访问时间、最后修改时间等元信息，可以自己试一下这两个函数。

copytree：递归复制整个目录树

copytree 方法可以递归复制整个目录，并返回目标目录的路径，函数原型如下：

def copytree(src, dst, symlinks=False, 
             ignore=None, copy_function=copy2,
             ignore_dangling_symlinks=False, 
             dirs_exist_ok=False):
    ...

参数含义如下：

src：表示路径的字符串，必须是一个已存在的目录，不能是文件;
dst：表示路径的字符串，必须是一个不存在的目录，否则报错：FileExistsError;
symlinks：是否遵循符号链接，默认为 True。如果为 True，表示复制文件，如果为 False，那么当 src 为软连接时，则创建一个新的软连接;
ignore：在复制的时候，用于过滤某些文件;
copy_function：从默认值可以看出，表示拷贝函数，这里采用的是 copy2，会将文件的元信息也一块拷过去;
ignore_dangling_symlinks：是否忽略 symlinks，如果值为 True 则忽略，值为 False，那么当文件不存在时则产生异常。对于不支持 os.symlink() 的平台，此参数无任何影响;

举个例子：

import shutil
# 将 dir1 拷贝为 dir2
shutil.copytree("dir1", "dir2")
# 将 dir1 拷贝为 dir3，同时忽略掉 .txt 结尾的文件
shutil.copytree("dir1", "dir3", 
                ignore=shutil.ignore_patterns("*.txt"))

disk_usage：获取磁盘的使用情况

该函数接收一个参数 path，会自动获取该路径所在磁盘的使用情况：总空间、已使用空间和空闲空间，以字节为单位。

import shutil
disk = shutil.disk_usage("/")
print(disk)
"""
usage(total=494384795648, used=71737876480, free=422646919168)
"""
print(disk.total / 1024 / 1024 / 1024)
print(disk.used / 1024 / 1024 / 1024)
print(disk.free / 1024 / 1024 / 1024)
"""
460.4317207336426
66.81110382080078
393.6206169128418
"""

关于获取磁盘信息，之前还介绍过一个模块叫 psutil。

get_archive_formats：获取支持的压缩格式

一会要介绍文件压缩，所以先来看看都支持哪些压缩格式。

import shutil
from pprint import pprint
pprint(shutil.get_archive_formats())
"""
[('bztar', "bzip2'ed tar-file"),
 ('gztar', "gzip'ed tar-file"),
 ('tar', 'uncompressed tar file'),
 ('xztar', "xz'ed tar-file"),
 ('zip', 'ZIP file')]
"""

既然有压缩，那么就有解压缩，get_unpack_formats 函数可以返回当前系统支持的解压缩格式列表：

import shutil
from pprint import pprint
pprint(shutil.get_unpack_formats())
"""
[('bztar', ['.tar.bz2', '.tbz2'], "bzip2'ed tar-file"),
 ('gztar', ['.tar.gz', '.tgz'], "gzip'ed tar-file"),
 ('tar', ['.tar'], 'uncompressed tar file'),
 ('xztar', ['.tar.xz', '.txz'], "xz'ed tar-file"),
 ('zip', ['.zip'], 'ZIP file')]
"""

get_terminal_size：获取终端窗口的大小

get_terminal_size 函数可以获取终端窗口的大小。

import shutil
print(shutil.get_terminal_size())
"""
os.terminal_size(columns=80, lines=24)
"""

系统如果不支持查询，或者未连接到终端，那么默认返回 80, 24。

make_archive：创建压缩文件

通过 make_archive 可以创建压缩文件，函数原型如下：

def make_archive(base_name, format, root_dir=None, 
                 base_dir=None, verbose=0, dry_run=0, 
                 owner=None, group=None, logger=None):
    ...

参数含义如下：

base_name：表示生成的压缩文件的名称（不包含扩展名），也可以是完整路径。如果只写文件名则保存到当前目录，否则保存到指定路径；
format：表示压缩包格式，如 zip、tar、bztar、gztar 等，会根据 format 生成扩展名并拼接到 base_name 后面；
root_dir：表示要压缩的目录路径，默认是当前目录；
base_dir：表示要压缩的目录路径，默认为当前目录；那么问题来了，它和 root_dir 之间有什么区别呢？假设我们要对 dir1 目录进行压缩，压缩后的文件名是 xx.zip。如果指定的是 root_dir="dir1"，那么 xx.zip 解压之后得到的目录的名字为 xx；如果指定的是 base_dir="dir1"，那么 xx.zip 解压之后得到的目录的名字仍是 dir1。当然不管目录名是 xx 还是 dir1，里面存储的内容不变，这两个参数我们指定一个即可；
verbose：已弃用；
dry_run：表示是否创建存档，如果 dry_run 为 True，则不会创建存档，但会将执行的操作记录到 logger；
owner：可选参数，用于指定用户，默认为当前用户；
group：可选参数，用于指定组，默认为当前组；
logger：用于记录日志，通常为 logging.Logger 对象；

make_archive 函数依赖于 zipfile 和 tarfile 模块。

import shutil
shutil.make_archive("xx", "zip",  root_dir="dir1")

之后会在当前目录中出现一个 xx.zip，目录 "dir1" 里面的所有内容都会被压缩到里面。

有压缩，那么自然有解压缩：

shutil.unpack_archive(filename, extract_dir=None, format=None)
"""
filename: 解压缩文件的路径
extract_dir: 解压到哪个目录，未指定则解压到当前目录
format: 压缩文件的格式，如：zip、bztar、gztar 等等
        如果没有提供，那么根据压缩文件的扩展名进行推断
"""

该方法同样依赖于 zipfile 和 tarfile 两个模块。

move：移动文件和目录

move 函数用于将文件或目录移动到目标目录，如果移动到了不同的文件系统中，那么移动将会变成复制。这里我们考虑同一个文件系统即可，想拷贝的话，建议使用 copy 函数。下面看一下 move 函数的用法：

import shutil
"""
src: 源文件或目录
dst: 路径不存在相当于重命名，存在则进行移动
copy_function：默认是 copy2
"""
# dir22 不存在，所以相当于将 dir2 重命名为 dir22
shutil.move("dir2", "dir22")
# dir3 存在，所以会将 dir22 移动到 dir3 中
shutil.move("dir22", "dir3")

当 dst 不存在时，无论 src 是文件还是目录，都相当于重命名。如果 dst 存在并且是目录，那么 src 无论是文件还是目录，都会被移动到 dst 里面去。如果 dst 存在并且是文件，那么 src 必须也是一个文件，此时相当于覆盖，可以理解为先删除 dst、再将 src 重命名为 dst。

rmtree：删除整个目录树

rmtree 函数用于删除整个目录树，参数如下：

path：表示路径的字符串，必须是一个目录，不能是文件；
ignore_errors：默认为 False，表示是否忽略删除中出现的错误。如果为 True 表示忽略、为 False 表示不忽略；
onerror：一个错误处理函数，出现异常时自动调用，并且会往里面传递三个参数：os.lstat、path（路径）、excinfo（返回的异常信息）。如果 onerror 被省略，那么当发生错误时会给出提示；

import os
import shutil
print(os.access("dir3", os.F_OK))  # True
shutil.rmtree("dir3")
print(os.access("dir3", os.F_OK))  # False

which：获取可执行文件的路径

我们在终端中输入 python 的时候会自动进入交互式解释器，这是因为在环境变量中配置了 python 解释器的路径，而通过 which 函数可以获取相应的路径。该函数接收的参数如下：

cmd：相关命令;
mode：用于指定需要传递的权限掩码，默认为 os.F_OK | os.X_OK，表示测试路径是否存在、并且是否可执行;
path：默认为 None，表示查找 cmd 命令的路径。如果不指定则在环境变量中查找，指定了则在指定的路径参数中查找。但是注意：不管该参数有没有指定，当前目录始终会被添加到搜索路径中;

import shutil
print(shutil.which("python"))  # /usr/bin/python
print(shutil.which("gcc"))  # /usr/bin/gcc
print(shutil.which("xxxxx"))  # None

如果找不到的话，返回 None。

小结

以上就是 shutil 的一些用法，在工作中不妨多使用一下。尤其是涉及文件拷贝的时候，真的非常方便。

shutil：更优雅地拷贝文件

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

shutil：更优雅地拷贝文件

热门文章

最新文章

相关电子书