开发者社区问答正文

scrapy 下载百度新闻图片错误?报错

报错日志如下：

2017-07-12 21:26:48 [scrapy.pipelines.files] WARNING: File (code: 403): Error downloading file from <GET http://t10.baidu.com/it/u=1495155540,1076493806&fm=55&s=BF904F831EEF3E8C6781B5210300E0F1&w=121&h=81&img.JPEG> referred in <None>
2017-07-12 21:26:48 [scrapy.core.scraper] WARNING: Dropped: Item contains no images

红色部分，是自己写的代码

def item_completed(self, results, item, info):
if item.__class__.__name__ != 'NewsImagesItem':
return item
image_path = [x['path'] for ok,x in results if ok]
if not image_path:
raise DropItem('Item contains no images')

imagePipiline 配置都没有错误，日志里显示图片已经开始下载

图片地址也没有错误，部分图片是可以下载下来的

另外：图片地址在浏览器里多次尝试也会出现403 Forbidden 错误

应该是网站的防爬策略，怎么解决呢

展开

收起

爱吃鱼的程序员 2020-06-08 12:36:09 825 版权

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

这个问题解决了，分析浏览器请求，发现header里面都是设置了referer的，在pipeline 里request的时间，加上header.referer即可。

HTTPReferer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里，他的服务器就能够从HTTPReferer中统计出每天有多少用户点击我主页上的链接访问他的网站。

代码如下：

#自定义imagepipeline
classNewsImagesPipeline(ImagesPipeline):
  defget_media_requests(self,item,info):
    ifitem.__class__.__name__!='NewsImagesItem':
      return
    forimage_urlinitem['image_urls']:
      yieldRequest(url=image_url,headers={'Referer':item['header_referer']})
  defitem_completed(self,results,item,info):
    ifitem.__class__.__name__!='NewsImagesItem':
      returnitem
    image_path=[x['path']forok,xinresultsifok]
    ifnotimage_path:
      raiseDropItem('Itemcontainsnoimages')
    item['image_paths']=image_path
    returnitem

2020-06-08 12:36:22

赞同展开评论

问答分类：

Python 日志服务

问答标签：

Scrapy图片 Scrapy下载 Scrapy图片报错

问答地址：

开发者社区 > 开发与运维 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

scrapy 下载百度新闻图片错误?报错

相关文章