基于阿里云平台的人力资源流动大数据分析(二)

简介: 在这一部分,我们将依托于阿里云的MaxCompute和PAI平台,对人力资源流动数据进行数据清洗和数据探查。

在项目的这一部分,我们首先将数据导入阿里云MaxCompute平台,然后我依托于阿里云MaxCompute平台及PAI平台,对人力资源流动数据进行数据清洗和数据探查。
在MaxCompute中建表代码如下:
DROP TABLE IF EXISTS hr_analytics ;
CREATE TABLE IF NOT EXISTS hr_analytics
(
satisfaction_level DOUBLE
,last_evaluation DOUBLE
,number_project BIGINT
,average_montly_hours BIGINT
,time_spend_company BIGINT
,Work_accident BIGINT
,left1 BIGINT
,promotion_last_5years BIGINT
,position STRING
,salary_level STRING
)
;

然后,进行数据的缺失值处理,检查各个变量的空值数量:
SELECT sum(CASE WHEN satisfaction_level IS NULL THEN 1 ELSE 0 END) AS satisfaction_level
,sum(CASE WHEN last_evaluation IS NULL THEN 1 ELSE 0 END) AS last_evaluation
,sum(CASE WHEN number_project IS NULL THEN 1 ELSE 0 END) AS number_project
,sum(CASE WHEN average_montly_hours IS NULL THEN 1 ELSE 0 END) AS average_montly_hours
,sum(CASE WHEN time_spend_company IS NULL THEN 1 ELSE 0 END) AS time_spend_company
,sum(CASE WHEN work_accident IS NULL THEN 1 ELSE 0 END) AS work_accident
,sum(CASE WHEN left1 IS NULL THEN 1 ELSE 0 END) AS left1
,sum(CASE WHEN promotion_last_5years IS NULL THEN 1 ELSE 0 END) AS promotion_last_5years
,sum(CASE WHEN position IS NULL THEN 1 ELSE 0 END) AS position
,sum(CASE WHEN salary_level IS NULL THEN 1 ELSE 0 END) AS salary_level
FROM hr_analytics
;
检查发现,各项缺失值均为0,即无缺失值存在。

再检查数据的离群值。计算满意度,最近一次评价,参与项目数量,平均工作时间,在职时间,工伤次数的均值及标准差:
SELECT
AVG(satisfaction_level ) AS avg_satisfaction_level
,STDDEV(satisfaction_level ) AS std_satisfaction_level
,AVG(last_evaluation ) AS avg_last_evaluation
,STDDEV(last_evaluation ) AS std_last_evaluation
,AVG(number_project ) AS avg_number_project
,STDDEV(number_project ) AS std_number_project
,AVG(average_montly_hours)AS avg_average_montly_hours
,STDDEV(average_montly_hours ) AS std_average_montly_hours
,AVG(time_spend_company )AS avg_time_spend_company
,STDDEV(time_spend_company ) AS std_time_spend_company
,AVG(work_accident)AS avg_work_accident
,STDDEV(work_accident ) AS std_work_accident
FROM hr_analytics
;

然后利用3σ准则计算离群区间:(μ-3σ,μ+3σ),发现只有time_spend_company 含有离群值,离群值个数为376,离群率为0.4%。根据实际情况,公司员工在职时间的离群数量不多。可能因为突发情况,导致的在时间过长,本实验的目的为预测离职情况,而在职时间过长或过短更有可能影响离职,故不考虑剔除或替换。

然后利用PAI平台进行线性关系检测,得到决定系数R2为0.01,极为接近0,拟合优度很低。再绘制残差图,得到图形如下:
image.png

如图所示,图内数值随机分布 说明数据是线性的,即满意度和最后一次评价间有线性关系。

目录
相关文章
|
15天前
|
存储 人工智能 数据管理
|
8天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
10天前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
20天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
110 15
|
14天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
42 4
|
22天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
22天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
58 2
|
17天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
8月前
|
监控 安全 数据可视化
java基于微服务的智慧工地管理云平台SaaS源码 数据大屏端 APP移动端
围绕施工现场人、机、料、法、环、各个环节,“智慧工地”将传统建筑施工与大数据物联网无缝结合集成多个智慧应用子系统,施工数据云端整合分析,提供专业、先进、安全的智慧工地解决方案。
173 1
|
8月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
260 0