开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第三阶段):数据预处理模块梳理】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/671/detail/11640
数据预处理模块梳理
之前已经把链路统计功能做出来了,至于数据是怎样从前面的代码展示出来,也已经看到了,那到这里链路统计功能也已经完全结束了,也就是,在数据预处理这十个模块中,第一个模块列入统计,这个模块已经完成了。除了这个模块,还有其他几个模块有清洗脱敏。
先把这个流程理一下,预处理以前的链路统计已经完成了,预处理还包括清洗,脱敏,拆分,分类,还有数据解析,历史爬虫判断,数据结构化,再往后就是推送,推送到 kafka 后面,最后再做一个系统监控作用。
就这几个模块,现在把要做的这几个模块添加到程序里面,做一个小小的记录,在这里列一下这里链路统计功能,算是第一个模块,第一个模块链路统计功能已经做完了。第二个功能,要做的是数据清洗,接下来第三个是数据脱敏,这里脱敏又分为3-1:身份证和手机号码脱敏。再往后是数据拆分功能,拆分完就是数据的分类,这里分类又继续对她进行深化,分类分为5-1,分为两类,一类是单程或者往返,第二类是国内国外查询预订,也就是飞行类型与操作类型,飞行类型分为国内和国际,操作类型,分为查询和核定。分类分完,接下来就是数据的解析,就是第六个模块,第六个模块也分为两类,第一类叫查询类数据的解析,第二类,教育定类数据的解析。接下来是第七个部分,解析后是历史爬虫判断,就是数据是否在历史的爬虫里面出现过。第八个就是数据结构化的操作,第九个就是数据的推送,而数据推送里面又分为两类,一是查询类数据的推送,还有一个叫预订类的推送。推送完最后一个模块就是数据的监控,指的是数据预处理的监控功能。
数据预处理一共是要做十件事,第一件事是链式统计功能,第二个是数据清洗功能,第三个是脱敏功能,第四个就是拆分功能,接下来就是数据的解析,历史爬虫判断,数据结构化,数据推送,系统监控功能等十个模块,数据推送和系统监控功能应该放在循环会的外面,现在先把数据预处理的模块先简单的列一下。