scrapy官方文档提供的常见使用问题

简介: Scrapy与BeautifulSoup或lxml相比如何?BeautifulSoup和lxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的应用程序框架,可以抓取网站并从中提取数据。

Scrapy与BeautifulSoup或lxml相比如何?

BeautifulSouplxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的应用程序框架,可以抓取网站并从中提取数据。

Scrapy提供了一种用于提取数据的内置机制(称为 选择器),但如果您觉得使用它们感觉更舒服,则可以轻松使用BeautifulSoup (或lxml)。毕竟,他们只是解析可以从任何Python代码导入和使用的库。

换句话说,将BeautifulSoup(或lxml)与Scrapy进行比较就像将jinja2Django进行比较一样

我可以和BeautifulSoup一起使用Scrapy吗?

是的你可以。如所提到的上面BeautifulSoup可用于在Scrapy回调解析HTML响应。您只需将响应的主体提供给BeautifulSoup对象并从中提取所需的任何数据。

这是使用BeautifulSoup API的示例蜘蛛,lxml作为HTML解析器:

from bs4 import BeautifulSoup
import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["example.com"]
    start_urls = (
        'http://www.example.com/',
    )

    def parse(self, response):
        # use lxml to get decent HTML parsing speed
        soup = BeautifulSoup(response.text, 'lxml')
        yield {
            "url": response.url,
            "title": soup.h1.string
        }


注意

BeautifulSoup支持多个HTML / XML解析器。请参阅BeautifulSoup的官方文档,了解哪些可用。



Scrapy支持哪些Python版本?

在CPython(默认Python实现)和PyPy(从PyPy 5.9开始)下,Python 2.7和Python 3.4+支持Scrapy。从Scrapy 0.20开始,Python 2.6支持被删除。Scrapy 1.1中添加了Python 3支持。在Scrapy 1.4中添加了PyPy支持,在Scrapy 1.5中添加了PyPy3支持。

注意

对于Windows上的Python 3支持,建议按照安装指南中的说明使用Anaconda / Miniconda 


Scrapy是否从Django“窃取”?

可能,但我们不喜欢这个词。我们认为Django是一个很好的开源项目,也是一个值得关注的例子,因此我们将它作为Scrapy的灵感来源。

我们相信,如果事情已经做好,就没有必要重新发明它。这个概念除了是开源和自由软件的基础之外,不仅适用于软件,还适用于文档,程序,策略等。因此,我们不是自己解决每个问题,而是选择从这些项目中复制想法。已经妥善解决了这些问题,并专注于我们需要解决的实际问题。

如果Scrapy是其他项目的灵感,我们会感到自豪。随意偷我们!

Scrapy是否适用于HTTP代理?

是。通过HTTP代理下载器中间件提供对HTTP代理的支持(自Scrapy 0.8起)。HttpProxyMiddleware

如何在不同页面中抓取具有属性的项目?

请参阅将其他数据传递给回调函数

Scrapy崩溃:ImportError:ImportError: No module named win32api

由于这个Twisted错误,你需要安装pywin32

如何在蜘蛛中模拟用户登录?

请参阅使用FormRequest.from_response()来模拟用户登录


Scrapy是以广度优先还是深度优先的顺序爬行?

默认情况下,Scrapy使用LIFO队列来存储挂起的请求,这基本上意味着它以DFO顺序进行爬网在大多数情况下,此订单更方便。如果您确实想要以真正的BFO顺序进行爬网,可以通过设置以下设置来执行此操作:

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'


我的Scrapy爬虫有内存泄漏。我能做什么?

请参阅调试内存泄漏

此外,Python有内置内存泄漏问题,泄漏中描述 没有泄漏

如何让Scrapy消耗更少的内存?

见上一个问题。

我可以在蜘蛛中使用基本HTTP身份验证吗?

是的,看HttpAuthMiddleware

为什么Scrapy用英语而不是我的母语下载页面?

尝试通过覆盖设置来更改默认的Accept-Language请求标头 DEFAULT_REQUEST_HEADERS

我在哪里可以找到一些示例Scrapy项目?

例子

我可以在不创建项目的情况下运行蜘蛛吗?

是。您可以使用该runspider命令。例如,如果您在my_spider.py文件中编写了一个蜘蛛,则可以使用以下命令运行它:

scrapy runspider my_spider.py

有关runspider详细信息,请参阅命令

我收到“Filtered offsite request”消息。我该如何解决这些问题?

这些消息(以DEBUG级别记录)并不一定意味着存在问题,因此您可能不需要修复它们。

这些消息是由非现场蜘蛛中间件抛出的,它是一个蜘蛛中间件(默认启用),其目的是过滤掉蜘蛛所覆盖范围之外的域的请求。

有关更多信息,请参阅: OffsiteMiddleware

在生产中部署Scrapy搜寻器的推荐方法是什么?

请参阅部署Spider

我可以将JSON用于大型出口吗?

这取决于你的输出有多大。请参阅此警告JsonItemExporter 文档。

我可以从信号处理程序返回(扭曲)延迟吗?

有些信号支持从处理程序返回延迟,其他信号则不支持。请参阅内置信号参考以了解哪些参考

响应状态代码999的含义是什么?

999是Yahoo站点用于限制请求的自定义响应状态代码。尝试使用2蜘蛛中的下载延迟(或更高)来降低爬行速度

class MySpider(CrawlSpider):

name = 'myspider'

download_delay = 2

# [ ... rest of the spider code ... ]

或者使用设置在项目中设置全局下载延迟 DOWNLOAD_DELAY

我可以调用pdb.set_trace()给我的蜘蛛进行调试吗?

是的,但您也可以使用Scrapy shell,它允许您快速分析(甚至修改)蜘蛛处理的响应,这通常比普通的更有用pdb.set_trace()

有关更多信息,请参阅从spiders调用shell以检查响应

将所有已删除项目转储到JSON / CSV / XML文件的最简单方法是什么?

要转储到JSON文件中:

scrapy crawl myspider -o items.json

要转储到CSV文件:

scrapy crawl myspider -o items.csv

要转储到XML文件中:

scrapy crawl myspider -o items.xml

有关更多信息,请参阅Feed导出

__VIEWSTATE在某些形式中使用的这个巨大的神秘参数是什么?

__VIEWSTATE参数用于使用ASP.NET / VB.NET构建的站点。有关其工作原理的详细信息,请参阅此页面此外,这是一个蜘蛛示例 ,它刮擦其中一个站点。

Scrapy是否自动管理cookie?

是的,Scrapy接收并跟踪服务器发送的cookie,并将其发送回后续请求,就像任何常规Web浏览器一样。

有关更多信息,请参阅请求和响应以及CookiesMiddleware

如何查看Scrapy发送和接收的cookie?

启用COOKIES_DEBUG设置。

我如何指导蜘蛛自行停止?

CloseSpider从回调中提出异常。有关更多信息,请参阅:CloseSpider

如何防止我的Scrapy机器人被禁止?

请参阅避免被禁止

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗?

这两种蜘蛛的参数设置, 可以用于配置您的蜘蛛。没有严格的规则要求使用其中一个,但设置更适合参数,一旦设置,变化不大,而蜘蛛参数意味着更频繁地更改,即使在每个蜘蛛运行时,有时是蜘蛛根本需要运行(例如,设置蜘蛛的起始URL)。

举一个例子来说明,假设您有一个需要登录站点来抓取数据的蜘蛛,并且您只想从站点的某个部分(每次都有所不同)中抓取数据。在这种情况下,登录的凭据将是设置,而要刮取的部分的URL将是蜘蛛参数。

我正在抓取一个XML文档,我的XPath选择器不会返回任何项目

您可能需要删除命名空间。请参阅删除命名空间

程序流程没问题,启动就自动停止,也无报错

这可能是Spider中解析函数命名和关键词命名重合,导致回调不执行,不能增量抓取,短时间即停止


相关文章
|
11月前
|
数据安全/隐私保护 开发者 UED
CodeBuddy 开发者福音!在线简历0元搞定,再也不怕面试翻车!
本文介绍如何用CodeBuddy和Edgeone Page MCP制作高质量在线简历,告别传统简历的局限。通过CodeBuddy生成简历工具,支持高亮亮点、添加链接与代码仓库;借助Edgeone Page MCP一键发布,实现访问控制与实时更新。该方案不依赖Word/PDF,支持技术项目展示,响应式布局适配多设备,为开发者打造专业“技术名片”。立即尝试,让HR第一眼记住你!
|
4月前
|
人工智能 算法 新能源
2025 全球GEO优化行业年度观察:市场格局与技术革新双轮驱动
2025年,GEO(生成式引擎优化)从营销工具升级为品牌数字化生存刚需。依托多模态大模型与AI搜索变革,即搜AI、边鱼科技等领军企业推动技术标准落地,助力品牌抢占AI信源主权。国内市场规模达480亿元,跨境增长达93.1%。GEO正重塑全球流量格局,成为企业降本增效、出海突围的核心引擎。
|
6月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
消息中间件 安全 NoSQL
布谷直播系统源码开发实战:从架构设计到性能优化
作为山东布谷科技的一名技术研发人员,我参与了多个直播系统平台从0到1的开发和搭建,也见证了直播行业从萌芽到爆发的全过程。今天,我想从研发角度,分享一些直播系统软件开发的经验和心得,希望能对大家有所帮助。
|
数据采集 中间件 数据挖掘
Scrapy 爬虫框架(一)
Scrapy 爬虫框架(一)
415 0
|
存储 JSON 数据格式
Flask 3 保姆级教程(一):快速上手
Flask 3 保姆级教程(一):快速上手
|
存储 机器学习/深度学习 数据可视化
贝叶斯优化实战(三)(1)
贝叶斯优化实战(三)
275 0
|
小程序 JavaScript Java
鲜花销售|鲜花销售小程序|基于微信小程序的鲜花销售系统设计与实现(源码+数据库+文档)
鲜花销售|鲜花销售小程序|基于微信小程序的鲜花销售系统设计与实现(源码+数据库+文档)
512 0
|
Java 开发工具 Maven
java解析apk获取应用信息
请注意,你需要替换"path/to/your/apkfile.apk"为你的APK文件的实际路径。
758 0
CentOS cp 复制隐藏文件提示 cp: cannot stat ?.xxx*?. No such file or directory
执行的命令与错误信息: # cp -a /etc/skel/* /home/postgrescp: cannot stat ?.etc/skel/*?. No such file or directory 使用cp复制普通文件时,可以使用 * 号通配符,而在复制隐藏文件时,需要使用.
5346 0