功能介绍补充|学习笔记

简介: 快速学习功能介绍补充

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段功能介绍补充】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11588


功能介绍-补充

 

内容介绍:

一、链路统计:数据采集

二、系统监控功能的实际效果

三、爬虫实时效率

四、性能监控的实际效果

五、基础采集字段

六、数据可视化模块

 

一、链路统计:

数据采集图片1.png

图片2.png

多链路的统计效果


二、系统监控功能的实际效果:

图片3.png

三、爬虫实时效率

图片4.png


四、性能监控的实际效果:

图片5.png


五、基础采集字段:

数据采集 Lua 脚本中需要采集的数据。

 图片6.png

 

Request

请求的连接

Request Method

请求的方法

Remote Address

客户端地址

Request parameter

请求参数(包括 Form 表单)

Content-Type

Content-Type请求头字段

Cookie

请求 cookie

Server Address

服务器地址

Referer

跳转来源

User-Agent

用户终端浏览器信息

Time-Iso8601

访问时间 ISO 格式

Time_local

访问时间

                        表 2 数据清洗新增字段

有无关键 Cookie

需结合实际数据来看

单次访问携带的 Cookie 个数

 

Referer 是否伪造

查看该 IP 的历史记录

该 IP 是否属于高频的 IP 段

对统计字段进行查询

Cookie 中某些数据可以得到,某些数据不能得到。如:乘机人个人信息。

 

六、数据可视化模块

图片7.png

内置报表包括购票转化率、查询爬取规律、占座规律、爬虫对查定的影响、爬虫对系统稳定性影响5种:
购票转化即购票流量与总流量之比
查询爬取规律包括爬虫活跃时间段、爬取频次等;
占座规律可分析出爬虫非法占座情况,包括路线(航线)、日期、车次(航班)、座位、价格等
查定比影响建立在收集全流量数据基础上,以查询流量除以下单流量得来
爬虫对系统稳定性影响通过各链路流转等情况进行问接体现

相关文章
|
机器学习/深度学习 并行计算 安全
北京大学肖臻老师《区块链技术与应用》公开课笔记8——比特币挖矿
北京大学肖臻老师《区块链技术与应用》公开课笔记8——比特币挖矿
1245 0
|
新零售 安全 专有云
【全新发布】OneData数据模型白皮书---新零售行业智慧数据
OneData数据模型白皮书---新零售行业智慧数据
18453 1
【全新发布】OneData数据模型白皮书---新零售行业智慧数据
|
Oracle 关系型数据库 虚拟化
还在破解VMware?免费了,你知道吗?
VMware 现在对个人用户完全免费!无需破解,轻松使用。Workstation Pro 17.5.2 和 Fusion Pro 13.5.2 已正式发布,快来下载体验吧!下载前需登录 Broadcom Support Portal,注册账号即可。
632 0
|
12月前
|
数据采集 人工智能 分布式计算
探索云端数据力量:MaxFrame的革命性实践
MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计,支持大规模数据处理和AI模型开发。本文介绍MaxFrame方案,评测其在分布式Pandas处理、大语言模型数据处理中的表现,分析产品开通使用步骤及功能满足度,并提出改进建议。对比其他工具,MaxFrame易用性高、性能优,但在功能丰富度上仍有提升空间。总结指出MaxFrame潜力巨大,未来有望更加完善。
244 24
|
11月前
|
存储 算法 安全
【C语言程序设计——函数】分数数列求和1(头歌实践教学平台习题)【合集】
if 语句是最基础的形式,当条件为真时执行其内部的语句块;switch 语句则适用于针对一个表达式的多个固定值进行判断,根据表达式的值与各个 case 后的常量值匹配情况,执行相应 case 分支下的语句,直到遇到 break 语句跳出 switch 结构,若没有匹配值则执行 default 分支(可选)。例如,在判断一个数是否大于 10 的场景中,条件表达式为 “num> 10”,这里的 “num” 是程序中的变量,通过比较其值与 10 的大小关系来确定条件的真假。常量的值必须是唯一的,且在同一个。
419 2
|
Web App开发 网络协议 Android开发
Android平台一对一音视频通话方案大比拼:WebRTC VS RTMP VS RTSP,谁才是王者?
【9月更文挑战第4天】本文详细对比了在Android平台上实现一对一音视频通话时常用的WebRTC、RTMP及RTSP三种技术方案。从技术原理、性能表现与开发难度等方面进行了深入分析,并提供了示例代码。WebRTC适合追求低延迟和高质量的场景,但开发成本较高;RTMP和RTSP则在简化开发流程的同时仍能保持较好的传输效果,适用于不同需求的应用场景。
1133 2
|
运维 安全 Linux
如何在Linux部署JumpServer堡垒机并实现远程访问本地服务
如何在Linux部署JumpServer堡垒机并实现远程访问本地服务
557 0
|
小程序 JavaScript Java
基于SpringBoot+Vue+uniapp微信小程序的网络小说微信小程序的详细设计和实现
基于SpringBoot+Vue+uniapp微信小程序的网络小说微信小程序的详细设计和实现
174 0
|
机器学习/深度学习 缓存 并行计算
NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算,Tesla系列GPU能够处理解析PB级的数据,速度比使用传统CPU快几个数量级,NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品,云服务器吧分享NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比: