数据清洗_剪除反常数据|学习笔记

简介: 快速学习数据清洗_剪除反常数据

开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段 数据清洗_剪除反常数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/691/detail/12117


数据清洗_剪除反常数据


剪除反常数据

第五步绘制时长在直方图,第六步根据直方图的显示,查看数据分布后,剪除反常数据。

数据分析于处理的过程是不断探索、思考、查找特征的过程,其实数据集中还有很多问题,在绝大多数的数据分析、数据挖掘等工作绝大多数都在进行数据清洗,数据清洗后得到结果快,但数据清洗的过程比较复杂,要不断查看统计的图那些数据有问题。

根据直方图显示,剪除一些数据

直接注册 UDF,使用 sql 语句,查找范围内的数据

通过 spark.udf 注册到 sql、语句中,register 注册 hours 函数,在taxiFood数据集中进行 where 操作,在 where 操作中执行 hours,hours 传入两列数据,pickUpTime 和 dropUpTime,hours 结果严格按照直方图是1小时以内,在真正的数据集中,0-3小时分布都可以,BETWEEN 0-3,只过滤出0-3小时以内,生成新的数据集,taxiClean,查看数据

运行

image.png

数据已获取,针对数据进行相应的操作,计算时发现 pickUpTime 于 dropUpTime 差值变为3小时以内

数据清洗正式结束。

相关文章
|
测试技术 API 开发者
【Docker项目实战】在Docker环境下部署go-file文件分享工具
【2月更文挑战第15天】在Docker环境下部署go-file文件分享工具
426 1
|
存储 供应链 大数据
医院HIS基层卫生健康云综合管理系统源码
护士站: 特点:住院护士站管理系统是住院护理的中心所在,它可实现病房的床位统一管理、医嘱校对、医嘱的执行、医嘱终止、重整医嘱、医嘱查询、健康日志、患者病历首页查询,转科、出院申请,病人在住院期间的信息管理、病房分类管理、对病房、患者信息、患者费用等相关信息的查询。
264 1
|
Shell 分布式数据库
shell脚本中if判断‘-a‘ - ‘-z‘含义
shell脚本中if判断‘-a‘ - ‘-z‘含义
323 0
在Linux中,有一堆日志文件,如何删除7天前的日志文件?
在Linux中,有一堆日志文件,如何删除7天前的日志文件?
|
Python
Python中类创建和实例化过程
Python中类创建和实例化过程
359 1
|
存储 消息中间件 缓存
|
人工智能 自然语言处理 小程序
AI智能导诊系统源码,支持以公众号、小程序、App 等形式接入
智能导诊系统是一种基于人工智能和大数据技术开发的医疗辅助软件,它能够通过对患者的症状、病史等信息进行计算分析,快速推荐科室和医生。通过简单的描述自身症状,系统即可找到最适合的科室
539 1
|
存储 数据采集 数据库
python-scrapy框架(三)Pipeline文件的用法讲解
python-scrapy框架(三)Pipeline文件的用法讲解
459 0
|
JavaScript 前端开发 定位技术