交叉分析方法与实现

简介: import pandas as pdimport numpy as npimport scipy.stats as ssimport matplotlib.
import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("./data/HR.csv")
#获得以department分组后的索引值的数组dict
dp_indices = df.groupby("department").indices 
sales_values = df["left"].iloc[dp_indices["sales"]].values
technical_values = df["left"].iloc[dp_indices["technical"]].values
print(ss.ttest_ind(sales_values,technical_values)[1])

dp_keys = list(dp_indices.keys())
dp_t_mat = np.zeros([len(dp_keys),len(dp_keys)])
for i in range(len(dp_keys)):
    for j in range(len(dp_keys)):
        p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,
                              df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]
        dp_t_mat[i][j] = p_value
sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
plt.show()
img_46b64192502fc4005c397749948cf270.png
颜色越深的地方t值越接近于0,也就代表颜色越深的地方,二者的离职率是有显著差异的,而颜色淡的地方代表离职率没有显著差异


piv_tb = pd.pivot_table(df,values="left",index=["promotion_last_5years","salary"],
                       columns=["Work_accident"],aggfunc=np.mean)
print(piv_tb)
img_4016b545f48de7108200a0174cd24156.png
sns.heatmap(piv_tb,vmin=0,vmax=1)
plt.show()
img_4b684e9b2a237b4cc569fb41cce59666.png
目录
相关文章
|
4月前
|
数据采集 运维 监控
|
4月前
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
|
3月前
|
大数据
熵值法+TOPSIS法确定决策方案
熵值法+TOPSIS法确定决策方案
42 0
|
4月前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
|
4月前
|
存储 移动开发 算法
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
|
4月前
|
运维 算法 C++
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
|
4月前
|
机器学习/深度学习
用SPSS估计HLM多层(层次)线性模型模型
用SPSS估计HLM多层(层次)线性模型模型
|
4月前
|
数据可视化 Python
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
|
4月前
|
存储 机器学习/深度学习 数据挖掘
R语言分布滞后线性和非线性模型(DLM和DLNM)建模
R语言分布滞后线性和非线性模型(DLM和DLNM)建模
|
4月前
回归分析与相关分析的区别和联系
回归分析与相关分析的区别和联系