反爬虫记录

简介: 问题网络黑产猖獗,爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据,以低廉的价格将其出售。这会极大伤害用户隐私,更让用户对产品失去信任,危害绝对不容小觑。

问题

网络黑产猖獗,爬虫便是其手段之一。爬虫爬取你辛苦运营的用户、客户数据,以低廉的价格将其出售。这会极大伤害用户隐私,更让用户对产品失去信任,危害绝对不容小觑。对于很多互联网公司,信息甚至是其核心资产。所以无论是为保护用户隐私,亦或自身利益,防爬虫都志在必行。

不那么有效的手段

  1. 针对请求的useragent,refer等做限制。这些字段可以通过抓包工具随意修改,对于有心之人基本无效

比较有效的手段

反爬虫没有确定的方法,但有相对确定的原则:在对正常用户干扰最小的情况下最大限度地提高爬虫成本

需要明确爬虫和人类的区别,并针对这些区别制定方案。通常的做法有(成本从低到高):

后端:

  1. 限制ip、账号、接口频率,尤其是敏感数据接口(用户信息、客户信息、订单、收藏夹等),限制维度要多。
  2. 返回假数据迷惑爬虫
  3. 设置爬虫陷阱,如正常访问看不到的链接
  4. 维护一份账号、ip、代理等的黑名单
  5. 根据具体业务分析访问行为是否合理

前端:

1.前端代码安全的情况下(如app混淆),做相关加密(MD5,nonce防重复攻击),验证请求
2.各种验证码

当然,反爬逻辑越复杂,成本也越高,需要酌情考虑。

参考

https://www.zhihu.com/question/26221432

目录
相关文章
|
4月前
|
数据采集 JavaScript 前端开发
爬虫与反爬虫
本文介绍了爬虫与反爬虫的基本概念。爬虫是自动抓取互联网信息的程序,通常使用HTTP请求和解析技术获取数据。反爬虫技术包括验证码、User-Agent检测、IP限制、动态加载和数据接口限制等,用于阻止或限制爬虫访问。开发者需了解这些反爬虫策略,并采取相应措施应对。同时,网站运营者在实施反爬虫时也应考虑用户体验。
|
4月前
|
数据采集 存储 XML
给你一个具体的网站,你会如何设计爬虫来抓取数据?
【2月更文挑战第23天】【2月更文挑战第75篇】给你一个具体的网站,你会如何设计爬虫来抓取数据?
76 1
|
4月前
|
数据采集 机器学习/深度学习 安全
如何有效防爬虫?一文讲解反爬虫策略
如何有效防爬虫?一文讲解反爬虫策略
564 0
|
前端开发 JavaScript
百度统计失效,referrer背锅了
前段时间遇到一个问题,就是我的个人网站需要接入第三方百度统计,因为我的文章图片有来自第三方微信后台上传的文章,所以使用<meta name="referrer" content="no-referrer">解决图片访问403的问题,但是此时这个导致我百度统计失效了,于是去查询了一下referrer这个特性。
395 0
百度统计失效,referrer背锅了
|
1月前
|
数据采集 Web App开发 测试技术
如何避免反爬虫程序检测到爬虫行为?
这段内容介绍了几种避免被反爬虫程序检测的方法:通过调整请求频率并遵循网站规则来模拟自然访问;通过设置合理的User-Agent和其他请求头信息来伪装请求;利用代理IP和分布式架构来管理IP地址;以及采用Selenium等工具模拟人类的浏览行为,如随机点击和滚动页面,使爬虫行为更加逼真。这些技巧有助于降低被目标网站识别的风险。
|
2月前
|
搜索推荐
网站怎么做才可以禁止搜索引擎抓取收录页面快照
有太多的搜索引擎,每天抓来抓去的,不胜其烦!我们小网站承受不了这么大的量啊!于是,禁止他们抓取收录快照就成了我们的救命稻草!那么如何禁止自己的页面被收录快照呢?其实方法很简单,跟我来做吧。
39 6
网站怎么做才可以禁止搜索引擎抓取收录页面快照
|
4月前
|
数据采集 前端开发 数据挖掘
Fizzler库+C#:从微博抓取热点的最简单方法
本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息,提取热点标题和排名,实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法,并涉及代理IP使用。
Fizzler库+C#:从微博抓取热点的最简单方法
|
4月前
|
数据采集 JavaScript 前端开发
如何判断一个网站是否采取了反爬虫措施
通过观察请求响应、分析请求频率限制和检测JavaScript动态加载来初步判断网站是否使用反爬虫措施。使用Python `requests` 发送请求并检查响应头和内容,寻找验证码、限制信息。尝试短时间内多次请求,看是否被限制。使用Selenium模拟浏览器行为,获取动态加载内容。注意,这些方法仅为初步判断,实际可能需更深入分析,并确保爬取行为合法合规。
|
4月前
|
数据采集 JavaScript 前端开发
常见的反爬虫策略有哪些?
常见的反爬虫策略有哪些?
178 1
|
数据采集 存储 数据库连接
Python爬虫中的数据存储和反爬虫策略
Python爬虫中的数据存储和反爬虫策略