文档备案控制台

开发者社区问答正文

Scrapy包括什么组件？

Scrapy包括什么组件？

展开

收起

芯在这 2021-12-08 22:56:45 453 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

引擎(Scrapy Engine)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

2021-12-08 22:57:35

赞同展开评论

问答分类：

Python

问答标签：

Scrapy组件

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

scrapy-redis组件中如何实现的任务的去重？

1883

1

0

scrapy-redis组件的作用？

1537

1

0

Scrapy框架中各组件的工作流程？

1643

1

0

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

208

1

0

函数运行 /opt/python/scrapy crawl pubs 提示没有权限怎么办呢？直接使用

1240

1

0

Python scrapy中间件的作用是什么？

630

1

0

Python库中的Scrapy是什么？

494

1

0

Python中的Scrapy是什么？

466

1

0

python scrapy OpenSSL安装不成功?报错

981

1

0

python scrapy 运行爬虫报错?报错

1385

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云邮箱个人版登录入口链接在哪？

开阿里云服务器多少钱一个？带你了解不同类型的服务器价格

在 IDEA 中使用通义灵码自动修改代码时，IDEA 报错

通义灵码的 idea 插件，版本2.11.3，在idea 2026.1下，点击代码应用按钮报错

太糟糕了 Lingma

相关文章

推理 → 行动 → 观察：用 LangChain + Python 实现一个智能体循环

一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

python虚拟环境搭建

高校邮件安全体系升级与 Proofpoint 部署实践研究 —— 以特拉华大学为例

还有其他疑问?