文档备案控制台

开发者社区问答正文

如何解决虚拟主机被搜索引擎爬虫访问耗费大量流量？

如何解决虚拟主机被搜索引擎爬虫访问耗费大量流量？

展开

收起

请回答1024 2020-03-18 18:46:48 1066 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

请回答1024

问题场景：

客户使用虚拟主机，网站被搜索引擎爬虫访问耗费大量流量和带宽，如何处理。

解决方法：

可以通过在站点根目录下创建 Robots.txt，Robots.txt 文件是网站的一个文件，搜索引擎蜘蛛抓取网站首先就是抓取这个文件，根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制蜘蛛的爬取路径。

注：Robot.txt协议不是强制协议，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下方法无效。

1. 首先，先了解一下目前搜索引擎和其对应的 User-Agent，如下：

搜索引擎 User-Agent AltaVista Scooter baidu Baiduspider Infoseek Infoseek Hotbot Slurp AOL Search Slurp Excite ArchitextSpider Google Googlebot Goto Slurp Lycos Lycos MSN Slurp Netscape Googlebot NorthernLight Gulliver WebCrawler ArchitextSpider Iwon Slurp Fast Fast DirectHit Grabber Yahoo Web Pages Googlebot LooksmartWebPages Slurp

2. Robots.tx t样例代码：

例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: Disallow: / 例2. 允许所有的搜索引擎访问网站的任何部分 User-agent: Disallow: 例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: / 例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Disallow: 例5. 禁止spider访问特定目录 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/

**注意事项： ** 三个目录要分别写。请注意最后要带斜杠。带斜杠与不带斜杠的区别。例6. 允许访问特定目录中的部分url 实现a目录下只有b.htm允许访问 User-agent: * Allow: /a/b.htm Disallow: /a/

2020-03-18 18:47:33

赞同展开评论

问答分类：

数据采集搜索推荐

问答标签：

爬虫访问爬虫搜索引擎搜索引擎爬虫爬虫流量虚拟主机搜索引擎爬虫耗费流量

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Web应用防火墙是否能够阻断脚本工具爬虫访问

189

1

0

fn里面访问公网他的出口IP是怎么分配的？我的场景是爬虫对出口IP有考虑。

537

2

0

python爬虫中搜索引擎是如何获取一个新网站的URL的呢？

1584

1

0

python爬虫搜索引擎的局限性是什么呢？

1874

1

0

dns解析可以正常访问，但爬虫诊断的时候一直都是 DNS无法解析IP

771

1

0

Anti-Bot与WAF提供的爬虫流量防护功能有什么区别？

1190

1

0

112.17.14.110冒充百度爬虫访问网站是什么意思？

3588

1

0

小型垂直搜索引擎如何更好用HBase来存储爬虫数据

2859

2

0

我查看网站日志，爬虫都是爬临时域名。没有访问过我的主域名

3455

4

0

用python写爬虫，有什么好的建议？数据量大了有什么好的处理方式？

171

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云邮箱个人版登录入口链接在哪？

开阿里云服务器多少钱一个？带你了解不同类型的服务器价格

在 IDEA 中使用通义灵码自动修改代码时，IDEA 报错

通义灵码的 idea 插件，版本2.11.3，在idea 2026.1下，点击代码应用按钮报错

太糟糕了 Lingma

相关文章

一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

电容层析成像（ECT）的ART算法MATLAB演示实例

《用OpenClaw Active Memory构建下一代个性化服务体系》

1688 店铺全商品接口技术全解：从页面解析到分页采集的完整实现方案

Google 广告场景下 Uniswap 钓鱼攻击机理与 Web3 防御体系研究

相关解决方案

更多

MSE 助力实现全方位流量防护

通过 ESA 加速和保护互联网流量

通过 MSE Ingress实现容器应用的流量管理

快速实现办公环境安全访问云资源

通过私网安全高效访问 AI 模型服务

还有其他疑问?