Scrapy框架--通用爬虫Broad Crawls(上)

简介: 通用爬虫(Broad Crawls)介绍[传送:中文文档介绍],里面除了介绍还有很多配置选项。通用爬虫一般有以下通用特性:其爬取大量(一般来说是无限)的网站而不是特定的一些网站。

通用爬虫(Broad Crawls)介绍

[传送:中文文档介绍],里面除了介绍还有很多配置选项。

通用爬虫一般有以下通用特性:

  • 其爬取大量(一般来说是无限)的网站而不是特定的一些网站。
    
  • 其不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。
    
  • 其在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(post-processed)
    
  • 其并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)。
    
  • 正如上面所述,Scrapy默认设置是对特定爬虫做了优化,而不是通用爬虫。不过, 鉴于其使用了异步架构,Scrapy对通用爬虫也十分适用。 本篇文章总结了一些将Scrapy作为通用爬虫所需要的技巧, 以及相应针对通用爬虫的Scrapy设定的一些建议。

创建默认工程

scrapy创建工程是通过命令进行,创建一个名为proname的scrapy工程:

scrapy startproject proname 

然后根据提示:

cd proname

然后生成爬虫模板:

scrapy genspider lagou www.lagou.com

创建Broad Crawls工程

通用爬虫的创建过程与默认爬虫创建过程一样,只是在生成爬虫模板的时候命令不同,生成不同的爬虫模板:

scrapy genspider -t crawl lagou www.lagou.com

只需要增加 -t crawl即可。


源码逻辑解析

主要逻辑:

1.爬虫模板主要使用的类是CrawlSpider,而它继承的是Spider。

2.Spider的入口函数是start_requests()。

3.Spider的默认返回处理函数是parse(),它调用_parse_response(),则允许我们重载parse_start_url()和process_results()方法来对response进行逻辑处理。

4._parse_response()会去调用爬虫模板设置的rules=(Rule(LinkExtractor…)),将response交给LinkExtrator,LinkExtrator会根据我们传进来的参数:

allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(),
                 tags=('a', 'area'), attrs=('href',), canonicalize=False,
                 unique=True, process_value=None, deny_extensions=None, restrict_css=(),
                 strip=True

进行处理,其中deny的意思是除了它以外,反向取值,比如deny=('jobs/')则在处理的时候就会略过jobs,只爬取jobs以外的规则。


在项目目录的spiders文件夹下默认生成proname.py:


import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class GxrcSpider(CrawlSpider):
    name = 'proname'
    allowed_domains = ['www.proname.com']
    start_urls = ['http://www.proname.com/']

    rules = (        
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

        def parse_item(self, response):
            i = {}

            return i

1.通过Ctrl + 鼠标左键的方式跟踪CrawlSpider类,发现它是继承Spider的,往下看到CrawlSpider中有个parse方法,那么就意味着后面写代码的时候不能跟之前一样在代码里自定义parse函数了,最好像模板给出的parse_item这种写法。

2.解析parse函数,它调用了_parse_response方法:

    def parse(self, response):
        return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

其中的_parse_response可以说是核心函数,里面的参数cb_kwargs代表着参数。通过Ctrl+左键跟进_parse_response:

    def _parse_response(self, response, callback, cb_kwargs, follow=True):
        if callback:
            cb_res = callback(response, **cb_kwargs) or ()
            cb_res = self.process_results(response, cb_res)
            for requests_or_item in iterate_spider_output(cb_res):
                yield requests_or_item

        if follow and self._follow_links:
            for request_or_item in self._requests_to_follow(response):
                yield request_or_item

首先它判断是否有callback,就是parse函数中的parse_start_url方法,这个方法是可以让我们重载的,可以在里面加入想要的逻辑;

然后它还会将参数cb_kwargs传入到callback中,往下看它还调用了process_result方法:

    def process_results(self, response, results):
        return results

这个方法什么都没做,把从parse_start_url接收到的result直接return回去,所以process_result方法也是可以重载的。


接着看:

        if follow and self._follow_links:
            for request_or_item in self._requests_to_follow(response):
                yield request_or_item

如果存在follow,它就进行循环,跟进_requests_to_follow看一看:

    def _requests_to_follow(self, response):
        if not isinstance(response, HtmlResponse):
            return
        seen = set()
        for n, rule in enumerate(self._rules):
            links = [lnk for lnk in rule.link_extractor.extract_links(response)
                     if lnk not in seen]
            if links and rule.process_links:
                links = rule.process_links(links)
            for link in links:
                seen.add(link)
                r = self._build_request(n, link)
                yield rule.process_request(r)

在 _requests_to_follow中首先判断是否是response,如果不是就直接返回了,如果是就设置一个set,通过set去重;然后把_rules变成一个可迭代的对象,跟进_rules:

    def _compile_rules(self):
        def get_method(method):
            if callable(method):
                return method
            elif isinstance(method, six.string_types):
                return getattr(self, method, None)

        self._rules = [copy.copy(r) for r in self.rules]
        for rule in self._rules:
            rule.callback = get_method(rule.callback)
            rule.process_links = get_method(rule.process_links)
            rule.process_request = get_method(rule.process_request)

看到:

rule.callback = get_method(rule.callback)
rule.process_links = get_method(rule.process_links)
rule.process_request = get_method(rule.process_request)

这几个都是前面可以传递过来的,其中rule.process_links是从Rule类中传递过来的:

class Rule(object):

    def __init__(self, link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=identity):
        self.link_extractor = link_extractor
        self.callback = callback
        self.cb_kwargs = cb_kwargs or {}
        self.process_links = process_links
        self.process_request = process_request
        if follow is None:
            self.follow = False if callback else True
        else:
            self.follow = follow

虽然process_links默认为None,但是实际上我们在需要的时候可以设置的,通常出现在前面爬虫模板代码里面的

Rule(LinkExtractor(allow=r'WebPage/JobDetail.*'), callback='parse_item', follow=True,process_links='links_handle')

然后可以在url那里增加各种各样的逻辑,这里只简单的打印输出:

    def links_handle(self, links):
        for link in links:
            url = link.url
            print(url)
        return links

可以将url进行其他的预处理,比如可以将url拼接到一起、设置不同的url或者对url进行字符切割等操作。(使用举例:常用于大型分城市的站点,比如58的域名nn.58.com、wh.58.com,就可以通过这个对各个站点的域名进行预匹配)


再来到_requests_to_follow方法中看处理逻辑

    def _requests_to_follow(self, response):
        if not isinstance(response, HtmlResponse):
            return
        seen = set()
        for n, rule in enumerate(self._rules):
            links = [lnk for lnk in rule.link_extractor.extract_links(response)
                     if lnk not in seen]
            if links and rule.process_links:
                links = rule.process_links(links)
            for link in links:
                seen.add(link)
                r = self._build_request(n, link)
                yield rule.process_request(r)

set去重后就yield交给了_build_request处理,build_request则调用_response_downloaded进行页面的下载,下载后的页面交给_parse_response

目录
相关文章
|
3月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
162 6
|
3月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
133 4
|
3月前
|
数据采集 中间件 API
在Scrapy爬虫中应用Crawlera进行反爬虫策略
在Scrapy爬虫中应用Crawlera进行反爬虫策略
|
4月前
|
消息中间件 数据采集 数据库
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
56 1
|
4月前
|
消息中间件 数据采集 数据库
小说爬虫-02 爬取小说详细内容和章节列表 推送至RabbitMQ 消费ACK确认 Scrapy爬取 SQLite
小说爬虫-02 爬取小说详细内容和章节列表 推送至RabbitMQ 消费ACK确认 Scrapy爬取 SQLite
37 1
|
4月前
|
数据采集 SQL 数据库
小说爬虫-01爬取总排行榜 分页翻页 Scrapy SQLite SQL 简单上手!
小说爬虫-01爬取总排行榜 分页翻页 Scrapy SQLite SQL 简单上手!
110 0
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
293 4
|
7月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
111 4
|
6月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
4月前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
237 66