Spider设置
参数 |
说明 |
示例 |
name |
爬虫名称,必须唯一 |
name = “myspider” |
handle_httpstatus_list |
需要处理的状态码 |
handle_httpstatus_list = [404] |
download_delay |
下载延时(单位:s秒) |
download_delay = 5 |
allowed_domains |
域名限制 |
allowed_domains = [“baidu.com”] |
custom_settings |
用户设置,单独设置爬虫参数 |
custom_settings ={‘RETRY_TIMES’: 3} |
start_urls |
起始链接设置 |
start_urls = [“http://www.baidu.com“] |
settings.py或者custom_settings
参数 |
说明 |
USER_AGENT |
请求头 |
ROBOTSTXT_OBEY = False |
是否遵守robots协议 |
DOWNLOAD_DELAY = 2 |
同一个站点抓取延迟(秒s) |
CONCURRENT_REQUESTS_PER_DOMAIN = 1 |
对同一个站点并发线程 |
CONCURRENT_REQUESTS_PER_IP = 1 |
对同一个ip并发线程 |