Python爬虫如何加速?异步、协程还是多进程?分享一个常用做法,萌新也能看懂

简介: 天下代码,唯快不破

最近在知识星球:Python读者圈,遇到读者提问:Python爬虫如何加速?

这个问题涉及到一个爬虫里,甚至是整个Python编程里都非常重要的问题:

如果同时下载1w张图片,如何有效地加速程序运行,缩短下载时间?

今天我们一起来看一下常用的解决方案。

1、为什么慢?

首先我们先看一下,原来的代码里,是什么原因导致程序慢的?
下面是代码和运行结果:

import office

for i in range(1, 18):
    url = 'https://www.python-office.com/api/img-cdn/test/spider/{}.jpg'.format(str(i))
    office.image.down4img(url, output_name=str(i))

顺序执行看起来很完美,但是完美的背后是不是有陷阱呢?

为了更好的理解这个代码,我们先举一个例子:你面前有10台洗衣机编号是从1到10,里面转满了衣服需要你清洗,有的脏可能要强力洗洗的久,有的干净只需要速洗洗的快。

清洗以后,需要你记录下他们的清理顺序,有下列2种方案供你选择:

  1. 一个挨一个的洗完。先启动洗衣机1号,等1号洗完了,再启动2号,依次类推。这样你记录的结果和上图一样,是完美的按顺序完成。
  2. 先同时打开所有的洗衣机,哪一个洗完了就记录哪一个。因为有的洗得快,有的洗得慢,这样你记录的结果是混乱的。

哪种方式最快呢?毫无疑问是第2种,因为可以让所有的洗衣机同时工作,时间资源可以复用。

回到我们的程序,我们下载一张图片也是分为2步:请求图片资源,保存到本地。

上面的代码之所以慢,就是因为它是请求到第1张的资源,保存到本地之后,再去请求第2张的资源。看起来很完美,但其实问题很大。

如何加快速度呢?我们如果可以先请求到所有的图片资源(打开所有的洗衣机),然后再统一保存图片(哪台洗完衣服,就先记录哪台),这样是不是就会快很多呢?

下面我们按照第2种思路,在Python里的实现实现一下。

2、解决代码

Talk is cheap,show me the code.
先上代码和运行结果。

import asyncio
from aiohttp import ClientSession

tasks = []
url = "https://www.python-office.com/api/img-cdn/test/spider/{}.jpg"

async def hello(url, i='wanfeng', type='jpg'):
    async with ClientSession() as session:
        async with session.get(url) as response:
            if response.status==200:
                response = await response.read()
                # print(response)
                async with aiofiles.open('.'.join((str(i), type)), 'wb') as output_img:
                    # for chunk in response:
                    await output_img.write(response)
                    output_img.close()
                print(f"下载成功,图片名称:{'.'.join((str(i), type))}")


def run():
    for i in range(1, 18):
        task = asyncio.ensure_future(hello(url.format(i), i))
        tasks.append(task)

def main():
    loop = asyncio.get_event_loop()
    run()
    loop.run_until_complete(asyncio.wait(tasks))

if __name__ == '__main__':
    main()


主要使用的库是:

  • asyncio:协程,让图片下载不按顺序,可以加快速度
  • aiohttp:替代requests,用来异步发送请求。
  • aiofiles:异步写入文件内容

3、还有其它方法吗?

还有多进程也可以试试,但是多进程更大的优势体现在计算密集型的场景下。
爬虫获取网络请求属于I/O密集型操作,多进程的优势不大。

# -*- coding:utf-8 -*-
import multiprocessing
import os, time
from multiprocessing import Pool

import requests

url = "https://www.python-office.com/api/img-cdn/test/spider/{}.jpg"

def down4img(url, output_name, type):
    """
    下载指定url的一张图片,支持所有格式:jpg\png\gif .etc
    """
    # print("子进程开始执行>>> pid={},ppid={},编号{}".format(os.getpid(), os.getppid(), output_name))

    response = requests.get(url, stream=True)
    with open('.'.join((output_name, type)), 'wb') as output_img:
        for chunk in response:
            output_img.write(chunk)
        output_img.close()
        print(f"下载成功,图片名称:{'.'.join((output_name, type))}")
    # print("子进程终止>>> pid={},ppid={},编号{}".format(os.getpid(), os.getppid(), output_name))



def main():
    print("主进程开始执行>>> pid={}".format(os.getpid()))
    ps = Pool(multiprocessing.cpu_count())
    ps = Pool(3)
    for i in range(1, 18):
        # ps.apply(worker,args=(i,))          # 同步执行
        output_name = str(i)
        type = 'jpg'
        ps.apply_async(down4img, args=(url.format(str(i)), output_name, type,))  # 异步执行
        # ps.apply(down4img, args=(url.format(str(i)), output_name[0], type,))  # 同步执行

    # 关闭进程池,停止接受其它进程
    ps.close()
    # 阻塞进程
    ps.join()
    print("主进程终止")


if __name__ == '__main__':
    main()

主要使用的库是:

  • multiprocessing:创建进程池

4、写在最后

希望能给你带来帮助。如果想系统的学习Python,欢迎大家扫码加入我的知识星球👉Python读者圈,我们一起学习提高~

相关文章
|
27天前
|
数据采集 存储 XML
Python爬虫定义入门知识
Python爬虫是用于自动化抓取互联网数据的程序。其基本概念包括爬虫、请求、响应和解析。常用库有Requests、BeautifulSoup、Scrapy和Selenium。工作流程包括发送请求、接收响应、解析数据和存储数据。注意事项包括遵守Robots协议、避免过度请求、处理异常和确保数据合法性。Python爬虫强大而灵活,但使用时需遵守法律法规。
|
10天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
28天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
29天前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
7天前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
12天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
14天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
13天前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。
|
20天前
|
数据采集 监控 搜索推荐
python爬虫的基本使用
本文介绍了Python爬虫的基本概念及其广泛应用,包括搜索引擎、数据挖掘、网络监控、舆情分析和信息聚合等领域。通过安装`urllib`和`BeautifulSoup`库,展示了如何编写简单代码实现网页数据的抓取与解析。爬虫技术在大数据时代的重要性日益凸显,为各行业提供了高效的数据获取手段。
31 1
|
21天前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
59 0