Python 反爬虫与反反爬虫

简介: 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的链接,那么它就可以爬到另一张网上来获取数据。
✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。
🍎个人主页: 小嗷犬的博客
🍊个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
🥭本文内容:Python 反爬虫与反反爬虫

1.什么是爬虫

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的链接,那么它就可以爬到另一张网上来获取数据


2.为什么要反爬虫

反爬虫,即使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。

如果不反爬虫,会有人不断的发起请求获取数据,动态服务器会有大量的异常错误或者正常的意外流量,流量被浪费在了(程序员/组织)获取数据上,而不是分发数据(给用户)上。

这对网站官方会造成极大的负面影响,所以要反爬虫。


3.反爬虫的手段

3.1 基于请求头

反爬虫首先是基于 请求头的,爬虫程序的请求头通常与用户使用的浏览器的请求头不同,通过请求头,可以筛除很大一部分的程序请求。

3.2 基于用户行为

反爬虫手段还可以基于 用户行为,对于一些 异常行为,比如1秒内提交数十次请求,后台就可以认定发出请求的用户可能不是人,通过封锁此类用户的IP来达到反爬虫的效果。

4.反反爬虫

4.1 设置请求头

通过设置请求头,我们的爬虫程序可以伪装成浏览器,从而避免反爬虫系统的怀疑。

我们可以使用 fake_useragent 库,它其中包含了一个 UserAgent类可以帮助我们生成不同的请求头。

fake_useragent 库是第三方库,所以第一步是安装:

pip install fake_useragent
接着导入 fake_useragent 库:
from fake_useragent import UserAgent
然后使用方法也很简单:
from fake_useragent import UserAgent

# 创建一个 UserAgent对象
ua = UserAgent()

# 随机获取 User-Agent
print(ua.random)

# 随机生成 ie的 User-Agent
print(ua.ie)
# 随机生成 opera的 User-Agent
print(ua.opera)
# 随机生成 chrome的 User-Agent
print(ua.chrome)
# 随机生成 google的 User-Agent
print(ua.google)
# 随机生成 firefox的 User-Agent
print(ua.firefox)
# 随机生成 safari的 User-Agent
print(ua.safari)
将包含生成的 User-Agent的请求头作为发送请求时的参数,就可以实现伪装浏览器请求。

4.2 设置间隔时间

高频请求会引起反爬虫系统的反应,我们需要将爬虫程序伪装得更像一个真人,通过降低请求频率就可以进行伪装。

我们通常是使用设置间隔时间的方式来降低频率,这里我们会使用到time库。

time库是 Python 内置的标准库,直接导入就可以使用:

import time
time库提供了一个 sleep()方法,它可以根据输入的参数暂停程序一段时间:
import time
print('小嗷犬')
time.sleep(5)
print('嗷嗷嗷')
其中, sleep()方法所用的单位是秒(s)。

尽量确保我们的爬虫程序每次请求之间间隔一段时间,以此来避免被反爬虫系统监测。

同时我们还可以结合random,来使间隔时间更加自然:

import time
import random

for i in range(10):
    print(i)
    time.sleep(random.random() * 3)

5.爬虫协议

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉其他人哪些页面可以抓取,哪些页面不能抓取,而其他人则通过读取robots.txt文件来识别这个页面是否允许被抓取。

robots协议是国际互联网界通行的道德规范,基于以下原则建立:

  1. 搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权
  2. 网站有义务保护其使用者的个人信息和隐私不被侵犯

但是,这个robots协议不是防火墙,也没有强制执行力,爬虫程序完全可以忽视robots.txt文件去抓取网页的快照。

robots协议并不是一个规范,而只是约定俗成的,所以并不能真正保证网站的隐私,它只是互联网界的一种君子协定,需要我们自觉遵守。

目录
相关文章
|
3天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
18 3
|
3天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
19 1
|
12天前
|
数据采集 JavaScript 前端开发
构建你的首个Python网络爬虫
【9月更文挑战第8天】本文将引导你从零开始,一步步构建属于自己的Python网络爬虫。我们将通过实际的代码示例和详细的步骤解释,让你理解网络爬虫的工作原理,并学会如何使用Python编写简单的网络爬虫。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开网络数据获取的新世界。
|
12天前
|
数据采集 机器学习/深度学习 搜索推荐
Python爬虫技术基础与应用场景详解
本文介绍了爬虫技术的基本概念、原理及应用场景,包括数据收集、价格监测、竞品分析和搜索引擎优化等。通过一个实战案例展示了如何使用Python爬取电商网站的商品信息。强调了在使用爬虫技术时需遵守法律法规和道德规范,确保数据抓取的合法性和合规性。
|
15天前
|
数据采集 JavaScript 前端开发
打造你的Python爬虫:从基础到进阶
【9月更文挑战第5天】在数字信息泛滥的时代,掌握一项技能能让我们更好地筛选和利用这些资源。本文将带你了解如何用Python构建一个基本的网页爬虫,进而拓展到更复杂的数据抓取任务。无论你是编程新手还是有一定经验的开发者,跟随这篇文章的步伐,你将能够实现自动化获取网络数据的目标。准备好了吗?让我们一起潜入代码的世界,解锁新的可能!
|
22天前
|
数据采集 人工智能 数据可视化
Python selenium爬虫被检测到,该怎么破?
Python selenium爬虫被检测到,该怎么破?
|
22天前
|
数据采集 XML Web App开发
6个强大且流行的Python爬虫库,强烈推荐!
6个强大且流行的Python爬虫库,强烈推荐!
WK
|
19天前
|
数据采集 XML 安全
常用的Python网络爬虫库有哪些?
Python网络爬虫库种类丰富,各具特色。`requests` 和 `urllib` 简化了 HTTP 请求,`urllib3` 提供了线程安全的连接池,`httplib2` 则具备全面的客户端接口。异步库 `aiohttp` 可大幅提升数据抓取效率。
WK
36 1
|
20天前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
21天前
|
数据采集 存储 数据库
构建你的第一个Python爬虫:从入门到实践
【8月更文挑战第31天】在数字时代的浪潮中,数据如同新时代的石油,而网络爬虫则是开采这些数据的钻头。本文将引导初学者了解并实现一个基础的网络爬虫,使用Python语言,通过实际代码示例,展示如何收集和解析网页信息。我们将一起探索HTTP请求、HTML解析以及数据存储等核心概念,让你能够快速上手并运行你的首个爬虫项目。