如何使用Scrapy框架爬取301跳转后的数据-阿里云开发者社区

如何使用Scrapy框架爬取301跳转后的数据

2023-06-14 312

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如何使用Scrapy框架爬取301跳转后的数据

在我们python强大的库里面，Scrapy是一个功能强大的网络爬虫框架，允许开发者轻松地抓取和解析网站内容。在爬取有些网站数据的时候会遇到网页跳转的情况，一般HTTP返回状态码是200，非200状态码，需要单独处理。Scrapy默认只处理200状态码响应，非200状态码响应需要单独设置，如301永久跳转。
可以只处理301跳转
```class MySpider(scrapy.Spider):
handle_httpstatus_list = [301]

也可以单独设置某个请求
``scrapy.request('http://url.com', meta={'handle_httpstatus_list': [301]})

那么301和302 Http状态有啥区别？
301，302 都是HTTP状态的编码，都代表着某个URL发生了转移，不同之处在于： 301 redirect: 301 代表永久性转移(Permanently Moved)， 302redirect: 302 代表暂时性转移(Temporarily Moved )。在项目实际中大家选择301跳转的可能性都要大些，因为SEO（搜索引擎优化）中提到一点：如果我们把一个地址采用301跳转方式跳转的话，搜索引擎会把老地址的PageRank等信息带到新地址，同时在搜索引擎索引库中彻底废弃掉原先的老地址 ，当然Http 状态 200 标示没有任何问题发生。  这里我们通过Scrapy框架访问百度跳转后的数据给大家参考下：

``` #! -- encoding:utf-8 --
import base64
import sys
import random

    PY3 = sys.version_info[0] >= 3

    def base64ify(bytes_or_str):
        if PY3 and isinstance(bytes_or_str, str):
            input_bytes = bytes_or_str.encode('utf8')
        else:
            input_bytes = bytes_or_str

        output_bytes = base64.urlsafe_b64encode(input_bytes)
        if PY3:
            return output_bytes.decode('ascii')
        else:
            return output_bytes

    class ProxyMiddleware(object):                
        def process_request(self, request, spider):
            # 代理服务器(产品官网 www.16yun.cn)
            proxyHost = "t.16yun.cn"
            proxyPort = "31111"

            # 代理验证信息
            proxyUser = "username"
            proxyPass = "password"

            # [版本>=2.6.2](https://docs.scrapy.org/en/latest/news.html?highlight=2.6.2#scrapy-2-6-2-2022-07-25)无需添加验证头,会自动在请求头中设置Proxy-Authorization     
            request.meta['proxy'] = "http://{0}:{1}@{2}:{3}".format(proxyUser,proxyPass，proxyHost，proxyPort)

            # 版本<2.6.2 需要手动添加代理验证头
            # request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)
            # request.headers['Proxy-Authorization'] = 'Basic ' +  base64ify(proxyUser + ":" + proxyPass)                    

            # 设置IP切换头(根据需求)
            # tunnel = random.randint(1,10000)
            # request.headers['Proxy-Tunnel'] = str(tunnel)

            # 每次访问后关闭TCP链接，强制每次访问切换IP
            request.header['Connection'] = "Close"

```

如何使用Scrapy框架爬取301跳转后的数据

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何使用Scrapy框架爬取301跳转后的数据

热门文章

最新文章

相关电子书