如何设计爬虫代理机制?
目标是抓取几十个网站,但其中只有少数网站的某些域名下会有反爬机制,试着用代理访问,相比不用代理访问速度明显较慢,而且 IP 质量有的很不好,觉得要是本来不用代理的也加代理的话也没必要,但是想让自己的爬虫不被封,还尽可能的有效率,有什么好方法吗,大家都用什么机制?IP 质量难以保证怎么弄啊
随机轮询代理,可以先用普通算法爬取网站,遇到反爬网站可以通过抓异常的方式,选择代理尝试爬取。可以自己维护一套代理库,某些网站提供每日代理列表,可以自己写算法获取每日的代理列表,就不用自己维护一套代理库了。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。