从0到1手把手教你实现一个 Python 多线程下载器(三)

简介: 从0到1手把手教你实现一个 Python 多线程下载器(三)

实例代码

函数形式的带进度条的单线程文件下载器

# 导入requests 库
import requests
# 导入 tqdm
from tqdm import tqdm
def download(url: str, file_name: str):
    '''
    根据文件直链和文件名下载文件
    Parameters
    ----------
    url: 文件直链
    file_name : 文件名(文件路径)
    '''
    # 文件下载直链
    # 请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
    }
    # 发起 head 请求,即只会获取响应头部信息
    head = requests.head(url, headers=headers)
    # 文件大小,以 B 为单位
    file_size = head.headers.get('Content-Length')
    if file_size is not None:
        file_size = int(file_size)
    response = requests.get(url, headers=headers, stream=True)
    # 一块文件的大小
    chunk_size = 1024
    bar = tqdm(total=file_size, desc=f'下载文件 {file_name}')
    with open(file_name, mode='wb') as f:
        # 写入分块文件
        for chunk in response.iter_content(chunk_size=chunk_size):
            f.write(chunk)
            bar.update(chunk_size)
    # 关闭进度条
    bar.close()
if "__main__" == __name__:
    url = 'https://issuecdn.baidupcs.com/issue/netdisk/yunguanjia/BaiduNetdisk_7.2.8.9.exe'
    file_name = 'BaiduNetdisk_7.2.8.9.exe'
    download(url, file_name)


多线程文件下载器

絮絮叨叨


早些年还没会编程的时候,我喜欢寻找各种高速的下载工具,比如说简单易用的 IDM 以及命令行多线程下载工具 Aria2。它们的下载速度确实让人惊艳。通过查询一些资料,我大概了解到它们下载速度快的原因之一是它们对同一个服务器建立多个连接,然后分块请求响应的内容,于是人多力量大,下载速度自然就提高了。


基础知识

假设我们有下面这么一段代码


单线程程序

import time
def say(number: int):
    print(number)
    time.sleep(0.5)
for i in range(5):
    say(i)


代码运行输出

0
1
2
3
4


不难发现,该代码实现的功能是每间隔 0.5 秒输出一次数字,一共重复 5 次。所以这段程序耗时在 2.5 秒左右。 如果我们使用多线程呢?譬如对于每一次操作均开启一个线程,结果会是怎么样?

为了简化多线程的写法,我查阅了相关资料,发现了一个很好用的多线程库

multitasking

如果你没有安装它,则可以使用 pip 工具,在终端运行下面的代码进行安装(前提是 pip 安装目录在环电脑境变量里面)


pip install multitasking

使用它之后,我们只需要给自定义的函数前面加上一行代码(装饰器)即可在调用函数时,为被调用的这个函数开启新的线程。下面是一个使用例子


以上代码的多线程版本如下

import time
# 导入用于多线程操作的库
# 这样子仅需要在自定义的函数前面使用装饰器即可将函数开启新的线程
import multitasking
import signal
# 按快捷键 ctrl + c 终止已开启的全部线程
signal.signal(signal.SIGINT, multitasking.killall)
# 多线程装饰器
@multitasking.task
def say(number: int):
    print(number)
    time.sleep(0.5)
start_time = time.time()
for i in range(5):
    say(i)
# 等待全部线程执行完毕
multitasking.wait_for_tasks()
end_time = time.time()
print('耗时:', end_time-start_time, '秒')


代码运行输出

0
1
2
3
4
耗时: 0.5063784122467041 秒


同样是每 0.5 秒输出一个数字,上面的代码因为使用多线程,耗时只有 0.5 秒左右,而之前的单线程版本耗时是 2.5 秒左右。


这里面用了一个装饰器,要展开的话稍微有些麻烦,感兴趣的先自己去了解或者与我交流吧。在这篇文章中,我们只需要掌握怎么简单地使用它来完成一个多线程操作即可。


相关文章
|
25天前
|
数据采集 存储 安全
如何确保Python Queue的线程和进程安全性:使用锁的技巧
本文探讨了在Python爬虫技术中使用锁来保障Queue(队列)的线程和进程安全性。通过分析`queue.Queue`及`multiprocessing.Queue`的基本线程与进程安全特性,文章指出在特定场景下使用锁的重要性。文中还提供了一个综合示例,该示例利用亿牛云爬虫代理服务、多线程技术和锁机制,实现了高效且安全的网页数据采集流程。示例涵盖了代理IP、User-Agent和Cookie的设置,以及如何使用BeautifulSoup解析HTML内容并将其保存为文档。通过这种方式,不仅提高了数据采集效率,还有效避免了并发环境下的数据竞争问题。
如何确保Python Queue的线程和进程安全性:使用锁的技巧
|
12天前
|
API Python
探索Python中的多线程编程
探索Python中的多线程编程
33 5
|
22天前
|
调度 Python
Python 中如何实现多线程?
【8月更文挑战第29天】
40 6
|
25天前
|
API C语言 C++
C调用Python之多线程与traceback打印
C调用Python之多线程与traceback打印
26 2
|
1月前
|
数据采集 Java Python
Python并发编程:多线程(threading模块)
Python是一门强大的编程语言,提供了多种并发编程方式,其中多线程是非常重要的一种。本文将详细介绍Python的threading模块,包括其基本用法、线程同步、线程池等,最后附上一个综合详细的例子并输出运行结果。
|
29天前
|
数据采集 Java Python
Python并发编程:多线程(threading模块)
本文详细介绍了Python的threading模块,包括线程的创建、线程同步、线程池的使用,并通过多个示例展示了如何在实际项目中应用这些技术。通过学习这些内容,您应该能够熟练掌握Python中的多线程编程,提高编写并发程序的能力。 多线程编程可以显著提高程序的并发性能,但也带来了新的挑战和问题。在使用多线程时,需要注意避免死锁、限制共享资源的访问,并尽量使用线程池来管理和控制线程。
|
1月前
|
开发工具 计算机视觉 Python
大恒相机 - Python 多线程拍摄
大恒相机 - Python 多线程拍摄
33 1
|
1月前
|
调度 Python
|
23天前
|
数据采集 Java Python
python 递归锁、信号量、事件、线程队列、进程池和线程池、回调函数、定时器
python 递归锁、信号量、事件、线程队列、进程池和线程池、回调函数、定时器
|
27天前
|
安全 Java Python
Python 中的多线程
【8月更文挑战第24天】
16 0