版权归作者所有,任何形式转载请联系作者。 作者:时光在路上豆瓣(来自豆瓣) 来源:https://www.douban.com/note/667243528/
很多人设置了CDN回源,这样可以让一些蜘蛛直接回源站点抓取数据。这样做的好处是:可以保障网站内容对蜘蛛的稳定性,便于抓取到数据。
但是这样做也有坏处:
如果服务器不是很好、网站内容设置不太好,会拖慢蜘蛛抓取所用的时间;
到底对哪些蜘蛛回源?这个并不是公开的数据,而是各个CDN公司内部设置的机制,而有些假冒蜘蛛的ip可能会直接找到网站服务器的真实地址,进行各种攻击活动:因为毕竟是回源了的,所以各种404、403、5xx都会在真实服务器上发生,给自己的主机服务器带来风险和不小的负担;
蜘蛛抓取主要是看你的网址上的网页是否打得开、开得快,链接内容是否稳定,是否影响抓取,如果这些都没问题,回源和不回源,个人认为区别不大。
不回源的好处是:把部分负担和风险抛给了CDN服务器,也同时缩短了抓取时间,如果自己主机没有做gzip压缩的话,CDN帮你把主页压缩了,蜘蛛抓取速度提升了一大截。
个人愚见,欢迎探讨。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。