备案控制台

开发者社区大数据文章正文

scrapy突破反爬的几种方式（三）

2018-09-17 1209

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一些小的技巧配置，让我们的爬虫被识别的概率降低。cookies 的禁用在settings.py 文件中有一个参数是：COOKIES_ENABLED = False默认情况下是禁用的，request 就不会把 cookies 带进去。

一些小的技巧配置，让我们的爬虫被识别的概率降低。

cookies 的禁用

在settings.py 文件中有一个参数是：

COOKIES_ENABLED = False

默认情况下是禁用的，request 就不会把 cookies 带进去。在一些不需要登录就能访问的网站来说，这种方式是很好用的。

限速

scrapy 默认情况下在下载网页的空隙是 0 的，也就是返回一个页面，立刻就去下载了。
在 settings.py 文件中有一个参数是：

DOWNLOAD_DELAY = 0

这个参数的意思是下载器在下载同一个网站下一页面需要等待的时间，该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数。
那我们就知道了，在爬取过快的时候，适当限一下速，别让翻车了就不好。
还有更多的限速相关的文档请参考scrapy官方文档点这里

settings

有些情况下，我们创建了几个 spider ，共用一个 setting 文件，可能有些spider 需要登录才能实现爬取，这是需要用到cookies 而另一些 spider 不需要登录就可以爬取到数据。这时我们可以在需要用cookies的spider文件中重写方法覆盖settings里的方法就可以了。
具体实现：在需要用cookies的spider中，添加以下代码：

custom_settings = {
          "COOKIES_ENABLED" : True
}

文章标签：

Python

数据采集

关键词：

Scrapy反爬

sixkery

目录

相关文章

sixkery

|

关系型数据库 MySQL 数据库

scrapy突破反爬的几种方式（二）

上回说到设置随机 User-Agent ，这次来一个随机代理 ip 的设置。代理ip 在爬虫中，为了避免网站将我们的 ip 封掉，我们就要使用代理 ip 。

sixkery

1540 0 0

土木林森

|

1月前

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

88 6 6

bruce_xiaowei

|

2月前

|

数据采集中间件开发者

Scrapy爬虫框架-自定义中间件

Scrapy爬虫框架-自定义中间件

bruce_xiaowei

56 1 1

bruce_xiaowei

|

2月前

|

数据采集中间件 Python

Scrapy爬虫框架-通过Cookies模拟自动登录

Scrapy爬虫框架-通过Cookies模拟自动登录

bruce_xiaowei

104 0 0

土木林森

|

1月前

|

数据采集前端开发中间件

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第26天】Python是一种强大的编程语言，在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架，为开发者提供了强大的工具集。本文通过实战案例，详细解析Scrapy框架的应用与技巧，并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。

土木林森

64 4 4

小白学大数据

|

1月前

|

数据采集中间件 API

在Scrapy爬虫中应用Crawlera进行反爬虫策略

在Scrapy爬虫中应用Crawlera进行反爬虫策略

小白学大数据

48 1 1

小白学大数据

|

7月前

|

数据采集中间件 Python

Scrapy爬虫：利用代理服务器爬取热门网站数据

Scrapy爬虫：利用代理服务器爬取热门网站数据

小白学大数据

147 3 3

bruce_xiaowei

|

2月前

|

数据采集中间件数据挖掘

Scrapy 爬虫框架（一）

Scrapy 爬虫框架（一）

bruce_xiaowei

51 0 0

bruce_xiaowei

|

2月前

|

数据采集 XML 前端开发

Scrapy 爬虫框架（二）

Scrapy 爬虫框架（二）

bruce_xiaowei

49 0 0

Python大数据分析

|

4月前

|

数据采集中间件调度

Scrapy 爬虫框架的基本使用

Scrapy 爬虫框架的基本使用

Python大数据分析

123 3 3

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

scrapy爬虫学习

Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

初识 scrapy 框架 - 安装

Scrapy选择器的用法

Scrapy1.4最新官方文档总结 4 爬虫

windows7 python3.4 安装scrapy

Scrapy进阶-命令行的工作原理（以runspider为例）

windows 7 安装 scrapy

scrapy_redis分布式组件Connection源码解读及工作原理

python-scrapy框架（四）settings.py文件的用法详解实例

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy框架（二）items文件夹的用法讲解

python-scrapy框架（一）Spider文件夹的用法讲解

【专栏】随着技术发展，Scrapy将在网络爬虫领域持续发挥关键作用

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

项目配置之道：优化Scrapy参数提升爬虫效率

介绍一下常见的爬虫框架或库，如`Scrapy`。

如何使用Scrapy提取和处理数据

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月