背景
爬虫形势
Web安全形势一直不容乐观, 根据Globaldots的2018年机器人报告, 爬虫占据Web流量的42%左右.
为什么要反爬
防资源过度消耗
大量的机器人访问网站, 设想你的网站有42%的流量都不是真的人访问的. 相当一部分还会大量占用后台的网络带宽, 服务器计算, 存储资源.
防黄牛党
航空公司占座: 黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。
防薅羊毛党
黄牛党在电商活动时针对有限的高价值商品的限时秒杀、优惠活动等可牟利场景,批量发起机器请求来模拟正常的交易,再将商品、资源进行倒卖从中赚取差价,导致电商企业的营销资源无法触达正常用户,而被黄牛牟取暴利。
防黑客
核心接口被刷: 登录、注册、短信等业务环节作为业务中的关键节点,相关接口往往会被黑客利用,为后续的欺诈行为作准备。
为什么需要日志分析
找出隐藏更深的机器人
爬虫与反爬虫是一个攻与防的过程, 根据前述报告, 高级机器人占据了74%的比例(剩余是比较简单的机器人), 而根据FileEye M-Trends 2018报告,企业组织的攻击从发生到被发现,一般经过了多达101天,其中亚太地区问题更为严重,一般网络攻击被发现是在近498(超过16个月)之后。有了日志才能更好的找出隐藏很深的坏机器人.
了解机器人并区分对待
爬虫也分好与坏, 搜索引擎来查询, 才可以达到SEO效果并带来更多有价值的访问. 通过日志可以帮助管理员更好的区分哪些是好的机器人, 并依据做出更加适合自己的反爬配置.
保留报案证据
发现非法攻击的机器人, 可以保留攻击者信息与路径, 作为报警的重要证据.
增强运维效率
基于日志可以发现异常, 并能快速报警并采取行动.
更多附加功能
依托日志服务的其他功能, 可以发挥日志的更大价值.
阿里云爬虫风险管理 - 实时日志分析概述
阿里云爬虫风险管理
云盾爬虫风险管理是一款网络应用安全防护产品,专业检测高级爬虫,降低爬虫、自动化工具对网站的业务影响。 产品提供从Web、App到API接口的一整套全面的恶意Bot防护解决方案,避免某一环节防护薄弱导致的安全短板。
阿里云日志服务
阿里云的日志服务(log service)是针对日志类数据的一站式服务,无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能,提升运维、运营效率。日志服务主要包括 实时采集与消费、数据投递、查询与实时分析 等功能,适用于从实时监控到数据仓库的各种开发、运维、运营与安全场景:
目前,云盾爬虫风险管理与日志服务打通,对外开发Web访问与攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。
发布地域
- 国内
- 国际
适用客户
- 拥有大量优质与知识产权的视频、图片、文字载体的内容、教育、媒体、咨询类网站。
- 面向大量优质客户,并频繁更新Web上金融、电商、服务信息的互联网企业,如航空、政府、电商、金融网站。
- 拥有自己的安全运营中心(SOC),需要收集安全告警等日志进行中央运营管理的企业,如大型地产、电商、金融公司、政府类机构等。
- 拥有较强技术能力,需要基于云上资产的日志进行深度分析、对告警进行自动化处理的企业,如IT、游戏、金融公司等。
功能优势
爬虫风险管理日志实时查询分析服务具有以下功能优势:
- 配置简单:轻松配置即可实现反爬访问与攻击日志的实时采集。
- 实时分析:依托日志服务产品,提供实时日志分析能力、开箱即用的报表中心与自带交互挖掘支持,从0到1, 让您对网站业务的各种爬虫攻击状况以及客户访问细节了如指掌。
- 实时告警:支持基于特定指标定制准实时的监测与告警,确保在关键业务发生异常时能第一时间响应。
- 生态体系:支持对接其他生态如实时计算、云存储、可视化等方案,进一步挖掘数据价值。
- 费用:免费提供14天实时访问与攻击日志的存储。
开通前提
- 开通日志服务
限制说明
爬虫风险管理所存储的日志库属于专属的日志库,有如下限制:
- 用户无法通过API/SDK等方式写入数据,或者修改日志库的属性(例如存储周期等)
- 其他日志库的功能,例如查询、统计、报警、流式消费等均支持与一般日志库无差别
- 日志服务对专属日志库不进行任何收费,但日志服务本身需处于可用状态(不超期欠费)
- 后期会升级并发布内置的报表.
使用场景
1.追踪机器人爬取与封禁日志,溯源安全威胁:
查看Top 100的爬取机器人列表:
__topic__: antibot_access_log AND (block_action:* AND NOT block_action: "") | SELECT if(real_client_ip='-', remote_addr, real_client_ip) as IP, (CASE WHEN ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip))='香港' THEN '中国香港' WHEN ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip))='' THEN '未知IP' WHEN ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))='内网IP' THEN '内网IP' ELSE concat(ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip)), '/', ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip)), '/', if(ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))='-1', '未知城市', ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))), ' ',ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))) END) AS "地理网络", concat(cast(count(1) AS varchar), ' / ', cast(sum(if(block_action='antibot', 1, 0)) AS varchar)) AS "攻击次数 / 爬虫封禁", round(sum(request_length)/1024.0/1024, 2) AS "攻击流量 (MB)" GROUP BY IP, "地理网络" ORDER BY count(1) DESC LIMIT 100
2. 实时正常可信Web请求活动,洞察状态与趋势:
查看PV/UV访问趋势的SQL:
__topic__: antibot_access_log | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt, count(1) as PV, approx_distinct(if(real_client_ip='-', remote_addr, real_client_ip)) as UV group by __time__ - __time__% 3600 order by dt limit 1000
3. 快速了解安全运营效率,即时反馈处理:
查看有效请求与拦截率趋势的SQL:
__topic__: antibot_access_log | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt, count(1) as "请求次数", round(sum(if(status < 400 and if((block_action <> ''), false, true), 1, 0))*100.0/sum(if(status < 500, 1, 0)), 1) AS "有效请求率(%)" group by __time__ - __time__% 3600 order by dt limit 10000
4. 输出安全网络日志到自建数据与计算中心
进一步参考
我们会陆续发布爬虫风险管理日志分析的最佳实践, 这里可以进一步参考相关用户手册:
- 阿里云爬虫风险管理日志分析 - 配置实时日志
- 阿里云爬虫风险管理日志分析 - 日志字段
- 扫码加入官方钉钉群 (11775223):