备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：scrapy-splash的请求头和代理参数设置

2021-11-23 446

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：scrapy-splash的请求头和代理参数设置

3中方式任选一种即可

1、lua中脚本设置代理和请求头：

function main(splash, args)
  -- 设置代理          
  splash:on_request(function(request)
        request:set_proxy{
          host = "27.0.0.1",
          port = 8000,
      }
    end)
    -- 设置请求头
    splash:set_user_agent("Mozilla/5.0")
    -- 自定义请求头
   splash:set_custom_headers({
    ["Accept"] = "application/json, text/plain, */*"
    })
    splash:go("https://www.baidu.com/")
    return splash:html()

2、scrapy中设置代理

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(url,
            endpoint='execute',
            args={'wait': 5,
                  'lua_source': source，
                  'proxy': 'http://proxy_ip:proxy_port'
                  }

scrapy中设置请求头一样的在headers中设置

3、中间件中设置代理

class ProxyMiddleware(object):
      def process_request(self, request, spider):
        request.meta['splash']['args']['proxy'] = proxyServer
        request.headers["Proxy-Authorization"] = proxyAuth

参考：

文章标签：

Python

数据采集

中间件

关键词：

Python爬虫代理

码农技术君

目录

相关文章

站大爷

|

5月前

|

数据采集机器学习/深度学习边缘计算

Python爬虫动态IP代理报错全解析：从问题定位到实战优化

本文详解爬虫代理设置常见报错场景及解决方案，涵盖IP失效、403封禁、性能瓶颈等问题，提供动态IP代理的12种核心处理方案及完整代码实现，助力提升爬虫系统稳定性。

站大爷

391 0 0

袁袁袁袁满

|

数据采集存储安全

Python爬虫实战：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

Python爬虫实战：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

袁袁袁袁满

395 0 0

Python爬虫实战：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

袁袁袁袁满

|

数据采集 XML 前端开发

Python爬虫实战：利用代理IP爬取百度翻译

Python 爬虫实战：利用代理 IP 爬取百度翻译

袁袁袁袁满

1127 2 3

仲君Johnny

|

数据采集 Web App开发数据安全/隐私保护

Python爬虫-使用代理伪装IP

介绍代理，设置代理，使用代理伪装IP案例

仲君Johnny

806 0 1

游客xusvbxsoy3qma

|

数据采集定位技术 Python

Python爬虫IP代理技巧，让你不再为IP封禁烦恼了！

本文介绍了Python爬虫应对IP封禁的策略，包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率，降低被封禁风险。

游客xusvbxsoy3qma

611 0 0

仲君Johnny

|

数据采集存储关系型数据库

Python爬虫-使用代理获取微信公众号文章

使用代理爬取微信公众号文章

仲君Johnny

1137 0 0

仲君Johnny

|

数据采集 JSON 大数据

Python爬虫-付费代理推荐和使用

付费代理推荐，讯代理，阿布云代理使用

仲君Johnny

623 0 0

azlr2a666ct4i

|

数据采集 Web App开发安全

「Python」爬虫-10.代理与常见报错

本文就关于爬虫**代理**以及在爬虫过程中可能出现的**报错**做一个汇总。

azlr2a666ct4i

883 0 0

小白学大数据

|

数据采集 Python

python下scarpy爬虫代理错误407

爬虫程序报407的原因

小白学大数据

273 0 0

码农技术君

|

数据采集数据库数据库管理

Python编程：搭建一个爬虫代理池

Python编程：搭建一个爬虫代理池

码农技术君

404 0 0

Python编程：搭建一个爬虫代理池

热门文章

最新文章

Python使用ffmpeg完美解决方案（避坑必看）

在Python中，利用`os模块`的`path.exists()`函数可判断文件是否存

Jupyter Notebooks嵌入Excel并使用Python替代VBA宏

Win10+Python3.6下Pytorch安装(基于conda或pip)

RPi 2B python opencv camera demo example

阿里云源 Python、npm、git、goproxy

python 对一组list数据，进行区间划分，按照大小排序并返回索引值

linux qt 项目中QProcess调用命令行命令执行python脚本

十八、通讯录管理系统Python版（对学生的增加，删除，修改，查询，遍历所有学员信息，退出系统，六个功能的实现）

python正则表达式-RE模块

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

基于python大数据深度学习的酒店评论文本情感分析系统

Python SQLAlchemy模块：从入门到实战的数据库操作指南

基于python大数据的的海洋气象数据可视化平台

基于Python大数据的主流汽车价格分析可视化系统

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

安全设备篇——WAF