分组分析方法与实现

简介: 分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

分组分析,是指将客体(问卷、特征、现实)按研究要求进行分类编组,使得同组客体之间的差别小于各种客体之间的差别,进而进行分析研究的方法。其特点在于不依赖于原始资料分布的正常性假设,可以按任意规律分布,在分析既包括数量资料,又包括质量资料的混合资料时尤为重要。

离散属性的分组比较容易,而连续属性的分组,分组前要进行离散化

img_89bc0985aa861e2dfbd5fa8c8a9959d0.png

img_6fc5138c7dabcd6cb90c5c67570b9c74.png

img_20111b886fdcc7088dfa85dd298622ce.png
image.png

img_71a70bb08db5d322913e8535bdeae4e5.png
离散值基尼系数的计算

img_1d84c09be39a4ad3ba21f1de2f4cb8e8.png
连续值的基尼系数的计算




代码实现

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
img_d74a76e29b226b5fc91a8a5b65c2e64e.png
未去除异常值,因此图像比较模糊
sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
img_c93ba53816212ffe8b9a53d65aac602b.png
图中有两个明显的拐弯的界限,可以根据界限来对满意度分组
目录
相关文章
|
9月前
|
数据采集 运维 监控
|
搜索推荐
过滤概念(可行性分析)
过滤概念(可行性分析)
|
6月前
|
数据挖掘 数据处理
R语言统计基本概念:探索描述性统计与推断统计的奥秘
【8月更文挑战第30天】描述性统计与推断统计是R语言统计分析中的两大基石。描述性统计帮助我们直观地了解数据的分布特征和基本属性,而推断统计则允许我们基于样本数据对总体进行推断和预测。在数据分析的实际应用中,两者相辅相成,共同构成了数据分析的完整框架。掌握这两大概念及其在R语言中的实现方法,对于提升数据分析能力和决策效率具有重要意义。
|
5月前
SentinelOne 相关性规则
SentinelOne 的自定义规则告警(Custom Rules)可将 Deep Visibility 检测的行为定义为规则,触发相应动作。今年升级的 Correlation Rules 能力支持创建更复杂的组合规则,增强威胁检测灵活性。详情及技术支持,请联系:王涛,电话:13818802872,邮箱:wangtao@mfreelink.com。
74 2
SentinelOne 相关性规则
|
7月前
|
领域建模
领域建模问题之建模中归类分组是什么
领域建模问题之建模中归类分组是什么
|
7月前
|
资源调度 数据可视化 算法
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
|
9月前
|
机器学习/深度学习 数据可视化
|
9月前
|
测试技术
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(下)
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题
|
9月前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
|
9月前
|
数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(一)