数据可视化+流程管理+系统管理|学习笔记

简介: 快速学习数据可视化+流程管理+系统管理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据可视化+流程管理+系统管理】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11587


数据可视化+流程管理+系统管理

 

内容介绍:

一、数据可视化

二、流程管理

三、系统管理

四、报表模块

 

一、数据可视化

图片1.png

1.离线分析

代码在后台运行,前端可以看到数据可视化界面,其中的数据对于反爬虫识别没有太大作用。但在企业需要某些指标时,需要将结果计算出来,通过9写入到 Mysql 中。

图片2.png

如国内转化率、国际转化率、排除爬虫与未排除爬虫、及国内、国际单程查询爬取频次,国内、国际双程爬取频次及爬虫查询航线排名。占座规律因数据涉及到顾客隐私,暂时无法分析。

 图片3.png

二、流程管理

制定一些规则,或者更多细节识别爬虫的规则并分类,只适用于某一特定阶段。

图片4.png

流程内部包含规则,每一规则都有一阈值,需要使用者自行设置。

5-1读取数据,5-2读取规则, 计算数据中的8个指标,与企业中配置好的8个指标阈值对比,若分数超过阈值,则为爬虫,若不超过,则不是爬虫。将爬虫数据写入 Redis 中,结束。

图片5.png

1.配置规则

企业配置好规则,数据传递过来后,再按照规则逐一计算出每个指标,再将计算出来的指标与企业配置的指标进行对比。若配置的指标超过了阈值,就拿各个规则后相应的分数表示,若未超过,则按实际需求选择。

2.配置策略

黑名单阈值:如图,若计算出来的分数经算法返回后超过了设置的阈值,则是爬虫,若小于, 则不是爬虫。

图片6.png

三、系统管理

企业内部用户管理界面

图片7.png

四、报表模块:

1.报表是通过离线进行统计的,离线的数据来源是通过流式处理打到 hdfs 的;

2.报表的指标包含:购票的转化率、查定比、爬虫的规律、系统稳定性;

 

相关文章
|
API 数据库 数据安全/隐私保护
Flask框架在Python面试中的应用与实战
【4月更文挑战第18天】Django REST framework (DRF) 是用于构建Web API的强力工具,尤其适合Django应用。本文深入讨论DRF面试常见问题,包括视图、序列化、路由、权限控制、分页过滤排序及错误处理。同时,强调了易错点如序列化器验证、权限认证配置、API版本管理、性能优化和响应格式统一,并提供实战代码示例。了解这些知识点有助于在Python面试中展现优秀的Web服务开发能力。
222 1
|
移动开发 Dart 前端开发
从架构到源码:一文了解Flutter渲染机制
Flutter从本质上来讲还是一个UI框架,它解决的是一套代码在多端渲染的问题。在渲染管线的设计上更加精简,加上自建渲染引擎,相比ReactNative、Weex以及WebView等方案,具有更好的性能体验。本文将从架构和源码的角度详细分析Flutter渲染机制的设计与实现。较长,同学们可收藏后再看。
8355 1
从架构到源码:一文了解Flutter渲染机制
|
存储 虚拟化 网络架构
带你读《企业私有云建设指南》之三:企业需求分析和私有云资源规划及设计
企业私有云建设需求旺盛,在架构设计和技术选型过程中应该结合自己公司的实际情况,因地制宜。本书给了很好的经验分享和思路,虽然是本技术书,但文笔流畅、平实细致,内容上也涉及了私有云建设的很多方面,值得细细阅读和品味!
|
存储 人工智能 自然语言处理
轻松改造公众号:10分钟实现智能客服自动化!
在阿里云平台上,仅需10分钟即可将微信公众号(订阅号)升级为AI智能客服,提供7x24小时客户支持,显著提升用户体验。方案包括四步:创建大模型问答应用、搭建微信公众号连接流、引入AI智能客服以及增加私有知识库,确保客服能精准回答复杂咨询,助力业务竞争力提升。整个过程简单快捷,在免费试用额度内费用为零。
727 7
轻松改造公众号:10分钟实现智能客服自动化!
|
机器学习/深度学习 自然语言处理 算法
基于卷积神经网络(CNN)的垃圾邮件过滤方法
传统的垃圾邮件过滤手段如规则匹配常因垃圾邮件的多变而失效。基于深度学习的方法,特别是卷积神经网络(CNN),能自动学习邮件中的复杂特征,有效识别垃圾邮件的新形态。CNN通过特征学习、处理复杂结构、良好的泛化能力和适应性,以及高效处理大数据的能力,显著提升了过滤精度。在文本分类任务中,CNN通过卷积层提取局部特征,池化层减少维度,全连接层进行分类,特别适合捕捉文本的局部模式和顺序信息,从而构建高效的垃圾邮件过滤系统。
1002 0
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
|
中间件
[Nestjs] 限制请求次数
在NestJS中限制请求次数,可以使用中间件来实现。以下是一种常见的方式: 1.创建一个限制请求次数的中间件: 创建一个名为 RateLimitMiddleware 的中间件,该中间件用于限制请求次数。在该中间件中,你可以使用使用第三方库(如 express-rate-limit、fastify-rate-limit)来实现请求限制逻辑,这些库提供了方便的方式来设置每个IP地址或其他标识符的请求次数限制。
451 0
技术经验分享:360浏览器截图快捷键设置
技术经验分享:360浏览器截图快捷键设置
669 0
技术经验分享:360浏览器截图快捷键设置
【Qt 学习笔记】Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明
【Qt 学习笔记】Qt常用控件 | 显示类控件 | Calendar Widget的使用及说明
989 0
|
文字识别
印刷文字识别产品使用合集之可以支持对哪些类型的票据进行识别支持数电发票的ocr识别吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。