第一阶段总结|学习笔记

简介: 快速学习第一阶段总结

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段第一阶段总结】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11611


第一阶段总结

 

1、总体内容概述

下面对第一阶段内容进行回顾,首先介绍了反爬虫项目背景,在什么样的一个环境前提下有了这样的一个项目需求,第二部分介绍了项目总体概述,具有哪些模块:流程管理模块,策略管理模块,规则管理模块,实施监控模块,数据可视化管理模块。然后对这些模块进行了一个粗略的概括。

图片1.png

数据的处理流程,内容非常的关键。反爬虫的所有项目都包括在了数据的处理流程中,以及逻辑架构是数据处理流程的另外一个维度的描述比流程更细化,在某一个模块某一个流程具体要做那些事情里面写的都很清楚。

接下来学习了反爬虫规则,具体规则就是那八个规则,里面还介绍了采集数据要采集哪些数据以及系统架构,系统架构除了流程架构和逻辑架构之外还有 bs 结构,技术架构使用的数据采集是 nginx➕lua 消息队列的实时接收是 kafka, 数据预处理和爬虫的识别使用的是 sparksyreaming, 离线分析使用的是 sparkcircle. 非功能性描述也带着大家详细讲述完毕,在向后介绍了防爬规则,防爬规则一共学习了八个规则,这八个规则是用来断定是不是爬虫的依据,根据这八个指标进行计算计算出来的结果综合打分,根据综合分数判断到底是不是爬虫。

第六部分是数据采集模块,openresty 的安装和介绍非常简单,先介绍了 openresty 常用的架构有哪四种,第一个是负载均衡第二个是单机闭环第三个是分布式闭环第四个是接入网关。

这四种场景每一个都有相对应的有点以及缺点用的比较广泛的是第四种接入网关,下面再布置的是集群。

openresty 的安装和部署较为简单,windows 版本直接解压,执行 nginx.exe, 访问http://localhost: 80就可以看到 welcome to openresty, 看到这个界面说明已经安装成功。

linux 安装也比较简单

1、上传安装包

2、解压安装包

3、安装依赖: yum - y instal readline - devel pcre - devel openssl - devel perl gcc

4、配置(安装目录和依赖模块):进入 openresty 的加压目录内( configure 在这个目录下)./ configure - prefix =/ usr / local / openresty - with - http stub status moudule

5、安装: make && make instal

6、启动:/ usr / local / openresty / nginx / sbin / nginx

7、查看页面:http://ip:80,看到 welcome to openresty 将 linux 版本安装完毕。

接下来学习了 openresty 集成 lua 语法,学习了如何做一个输出文件,如何写脚本。

学习了它的八个数据类型,变量,运算符包括复制运算符,算术运算符,关系运算符,逻辑运算符,其他运算符。

还有if条件判断以及 for 循环语句,while 循环 repeat 循环以及函数的定义,table的定义以及模块如何实现。

最后学习了 openresty 的入门案例主要学习了 nginx 集成 lua,第一种方式是直接写入代码块,另外一种方式是指定一个 lua 脚本,指定以后在脚本中去收集 http 请求方式中的 get 请求的数据以及 post 请求方式的数据,及 header body 信息都可以在脚本中获取,在向后就是写了一个 openresty 连接 Redis,读取了 Redis 里面的数据并进行展现1引入 readies 的模块2实例对象3创建链接4调用命令以上就是第一阶段所讲述的内容

1、 web 端的架构采用的是 B / s

2、数据处理采用的是 nginx (lua)+ kafka + sparkstreaming + spark

防爬规则:

按 P 段聚合-5分钟内的 P 段 P 前两位)访问量按 P 地址聚合-某个 P ,5分钟内总访问量

按 P 地址聚合.某个 P ,5分钟内的关键页面访问总量

按 P 地址聚合-某个 P ,5分钟内的 UA 种类数统计

按 P 地址聚合﹣某个 IP ,5分钟内查询不同行程的次数

按 P 地址聚合某个 P ,5分钟内关键页面的访问的 Cookie 数

按 P 地址聚合某个 P ,5分钟内的关键页面最短访问间隔

按 P 地址聚合某个 IP ,5分钟内小于最短访问间隔(自设)的关键页面查询次数

2.总结

1、介绍项目背景

2、项目总体概述

3、项目功能描述

4、项目架构

5、防爬规则

6、数据采集模块﹣ openresty 安装

7、 lua 语法入门

8、 openresty 案例入门

相关文章
|
存储 XML 网络协议
|
中间件
83 # 静态服务中间件 koa-static 的使用以及实现
83 # 静态服务中间件 koa-static 的使用以及实现
147 0
|
5月前
|
存储 安全 数据库
抖音封号能注销吗?请问
一、封号与注销的底层逻辑关系 账号状态机模型
|
9月前
|
Shell 数据库
【YashanDB知识库】YAS-00402 failed to connect socket, errno 111, error message "Connection refused"
【YashanDB知识库】YAS-00402 failed to connect socket, errno 111, error message "Connection refused"
【YashanDB知识库】YAS-00402 failed to connect socket, errno 111, error message "Connection refused"
|
存储 内存技术
内存条RAM详细指南
内存条(RAM)是电脑中用于临时存储数据和程序的部件,CPU依赖它执行操作。内存条经历了从主内存扩展到读写内存整体的发展,常见类型包括SDRAM和DDR SDRAM。内存容量、存取时间和奇偶校验是衡量其性能的关键指标。在选购时,应考虑类型、容量、速度和品牌,知名品牌的内存条提供更好的可靠性和稳定性。
5076 2
|
Linux iOS开发 网络架构
如何使用 Ping 命令监测网络丢包情况?
如何使用 Ping 命令监测网络丢包情况?
10889 48
|
12月前
|
缓存 算法 固态存储
VSAN数据恢复——开启重删压缩的全闪存VSAN下虚拟机数据恢复案例
VMware VSAN超融合架构,11台服务器节点。每台服务器节点上创建1个磁盘组,磁盘组包括1块PCIe固态硬盘(作为缓存盘)和8-10块SSD(作为数据盘),组成VSAN存储空间来存放虚拟机文件。启用了去重和压缩功能。 一台服务器节点上的一块PCIE缓存盘出现故障,导致VSAN逻辑架构问题。2台虚拟机磁盘组件出现问题,虚拟机无法正常使用。
|
消息中间件 Serverless 网络性能优化
消息队列 MQ产品使用合集之客户端和服务器之间的保活心跳检测间隔是怎么设置的
消息队列(MQ)是一种用于异步通信和解耦的应用程序间消息传递的服务,广泛应用于分布式系统中。针对不同的MQ产品,如阿里云的RocketMQ、RabbitMQ等,它们在实现上述场景时可能会有不同的特性和优势,比如RocketMQ强调高吞吐量、低延迟和高可用性,适合大规模分布式系统;而RabbitMQ则以其灵活的路由规则和丰富的协议支持受到青睐。下面是一些常见的消息队列MQ产品的使用场景合集,这些场景涵盖了多种行业和业务需求。
|
存储 人工智能 弹性计算
【Hello AI】集群极速部署工具FastGPU
FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。本文主要分为产品介绍、组成模块、典型流程这几个部分进行讲解。
|
存储 负载均衡 算法
ZooKeeper 工作、选举 原理
ZooKeeper 工作、选举 原理
375 0