数据预处理模块梳理|学习笔记

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 快速学习数据预处理模块梳理

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段数据预处理模块梳理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/671/detail/11640


数据预处理模块梳理


之前已经把链路统计功能做出来了,至于数据是怎样从前面的代码展示出来,也已经看到了,那到这里链路统计功能也已经完全结束了,也就是,在数据预处理这十个模块中,第一个模块列入统计,这个模块已经完成了。除了这个模块,还有其他几个模块有清洗脱敏。

image.png

先把这个流程理一下,预处理以前的链路统计已经完成了,预处理还包括清洗,脱敏,拆分,分类,还有数据解析,历史爬虫判断,数据结构化,再往后就是推送,推送到 kafka 后面,最后再做一个系统监控作用。

就这几个模块,现在把要做的这几个模块添加到程序里面,做一个小小的记录,在这里列一下这里链路统计功能,算是第一个模块,第一个模块链路统计功能已经做完了。第二个功能,要做的是数据清洗,接下来第三个是数据脱敏,这里脱敏又分为3-1:身份证和手机号码脱敏。再往后是数据拆分功能,拆分完就是数据的分类,这里分类又继续对她进行深化,分类分为5-1,分为两类,一类是单程或者往返,第二类是国内国外查询预订,也就是飞行类型与操作类型,飞行类型分为国内和国际,操作类型,分为查询和核定。分类分完,接下来就是数据的解析,就是第六个模块,第六个模块也分为两类,第一类叫查询类数据的解析,第二类,教育定类数据的解析。接下来是第七个部分,解析后是历史爬虫判断,就是数据是否在历史的爬虫里面出现过。第八个就是数据结构化的操作,第九个就是数据的推送,而数据推送里面又分为两类,一是查询类数据的推送,还有一个叫预订类的推送。推送完最后一个模块就是数据的监控,指的是数据预处理的监控功能。

数据预处理一共是要做十件事,第一件事是链式统计功能,第二个是数据清洗功能,第三个是脱敏功能,第四个就是拆分功能,接下来就是数据的解析,历史爬虫判断,数据结构化,数据推送,系统监控功能等十个模块,数据推送和系统监控功能应该放在循环会的外面,现在先把数据预处理的模块先简单的列一下。

相关文章
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)
268 0
|
机器学习/深度学习 编解码 算法
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
作为系列文章的第一篇解读,本文主要是从整体框架构建角度来解析,不会涉及到具体算法和代码,希望通过本文讲解: - MMDetection 整体构建流程和思想 - 目标检测算法核心组件划分 - 目标检测核心组件功能
942 0
超详细!手把手带你轻松掌握 MMDetection 整体构建流程(一)
|
2月前
|
机器学习/深度学习 自然语言处理 算法
数据准备指南:10种基础特征工程方法的实战教程
在数据分析和机器学习中,从原始数据中提取有价值的信息至关重要。本文详细介绍了十种基础特征工程技术,包括数据插补、数据分箱、对数变换、数据缩放、One-Hot编码、目标编码、主成分分析(PCA)、特征聚合、TF-IDF 和文本嵌入。每种技术都有具体应用场景和实现示例,帮助读者更好地理解和应用这些方法。通过合理的特征工程,可以显著提升模型的性能和预测能力。
97 3
数据准备指南:10种基础特征工程方法的实战教程
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
53 0
|
7月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
7月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
RFM用户分层模型|原理+Python全流程实现
详细解读如何使用RFM模型进行用户分层(附代码)
RFM用户分层模型|原理+Python全流程实现
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
175 0
机器学习算法的一般流程|学习笔记
|
数据采集 消息中间件 前端开发
数据预处理流程详解|学习笔记
快速学习数据预处理流程详解
数据预处理流程详解|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
539 0
数据预处理-数据清洗需求分析|学习笔记