Python爬虫:scrapy-splash的请求头和代理参数设置

简介: Python爬虫:scrapy-splash的请求头和代理参数设置

3中方式任选一种即可

1、lua中脚本设置代理和请求头:

function main(splash, args)
  -- 设置代理          
  splash:on_request(function(request)
        request:set_proxy{
          host = "27.0.0.1",
          port = 8000,
      }
    end)
    -- 设置请求头
    splash:set_user_agent("Mozilla/5.0")
    -- 自定义请求头
   splash:set_custom_headers({
    ["Accept"] = "application/json, text/plain, */*"
    })
    splash:go("https://www.baidu.com/")
    return splash:html()

2、scrapy中设置代理

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(url,
            endpoint='execute',
            args={'wait': 5,
                  'lua_source': source,
                  'proxy': 'http://proxy_ip:proxy_port'
                  }

scrapy中设置请求头一样的在headers中设置

3、中间件中设置代理

class ProxyMiddleware(object):
      def process_request(self, request, spider):
        request.meta['splash']['args']['proxy'] = proxyServer
        request.headers["Proxy-Authorization"] = proxyAuth

参考:

  1. using proxy with scrapy-splash
  2. 关于scrapy-splash使用以及如何设置代理ip
相关文章
|
5月前
|
数据采集 机器学习/深度学习 边缘计算
Python爬虫动态IP代理报错全解析:从问题定位到实战优化
本文详解爬虫代理设置常见报错场景及解决方案,涵盖IP失效、403封禁、性能瓶颈等问题,提供动态IP代理的12种核心处理方案及完整代码实现,助力提升爬虫系统稳定性。
391 0
|
数据采集 存储 安全
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
395 0
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
|
数据采集 XML 前端开发
Python爬虫实战:利用代理IP爬取百度翻译
Python 爬虫实战:利用代理 IP 爬取百度翻译
1127 2
|
数据采集 Web App开发 数据安全/隐私保护
Python爬虫-使用代理伪装IP
介绍代理,设置代理,使用代理伪装IP案例
806 0
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
数据采集 存储 关系型数据库
Python爬虫-使用代理获取微信公众号文章
使用代理爬取微信公众号文章
1137 0
|
数据采集 JSON 大数据
Python爬虫-付费代理推荐和使用
付费代理推荐,讯代理,阿布云代理使用
623 0
|
数据采集 Web App开发 安全
「Python」爬虫-10.代理与常见报错
本文就关于爬虫**代理**以及在爬虫过程中可能出现的**报错**做一个汇总。
883 0
|
数据采集 Python
|
数据采集 数据库 数据库管理
Python编程:搭建一个爬虫代理池
Python编程:搭建一个爬虫代理池
404 0
Python编程:搭建一个爬虫代理池

推荐镜像

更多