质量相关分析 | 学习笔记

简介: 快速学习质量相关分析

开发者学堂课程【人工智能必备基础:概率论与数理统计:质量相关分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7459


质量相关分析


内容介绍

一.质量相关分析

二.列相关

三.点二列相关

 

一.质量相关分析

质量相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。

质与量的相关主要包括二列相关、点二列相关、多系列相关。

 

二.二列相关

1.概念

两个变量都是正态连续变量。其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取。把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。

2.二列相关的使用条件:

两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。

两个变量之间是线性关系。

二分变量是人为划分的,其分界点应尽量靠近中值。

样本容量应当大于 80。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中 p 类别相对应的连续变量的平均数

image.png表示与二分变量中 q 类别相对应的连续变量的平均数

σ 表示连续变量的标准差

Y表示正态曲线下与p相对应的纵线高度

3.二列相关实例:

10 名考生成绩如下,包括总分和一道问答题,试求该问答题的区分度 ( 6 分以上为通过,包括 6 分)

image.png 

问答题,被人为的分成两类,通过和不通过,应求二列相关。

当 p=0.60 时,查正态分布表得到: x=0.25。

当 x-0.25 时,代入标准正态密度数image.png得到:Y=0.3866

image.png

则可以通过公式计算得到二列相关系数:

image.png

区分度略高

 

三.点二列相关

1.概念

当两个变量其中一个是正态连续性变景,另一个是真正的二分名义变量(例如,男与女。已婚和未婚,色方与非色方,生与死,等等)。这时,表示这两个变量之向的租关,称为点二列相关。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中p类别相对应的连续变量的平均数

image.png表示与二分变量中q类别相对应的连续变量的平均数

σ 表示连续变量的标准差

2.点二列相关实例:

有 50 道选择题,每题 2 分,有 20 人的总成绩和第五题的情况,第五题与总分的相关程度如何。

image.png

p (答对学生的比例)=10/20=0.5,q=1-p=0.5

image.png

相关系数较高,第五题的情况与总分有一致性(区分度较高)

3.代码

x:array_like of bools

Input array.

y:array_like

Input array.

correlation : float

R value

pvalue :float

2-tailed p-value

输入x=[1,0,0,0,0,0,0,1,1,1,1,0,1,1,1,1,1,0,0,0]

y=[84,82,76,60,72,74,76,84,88,90,78,80,92,94,96,88,90,78,76,74]

stats.pointbiserialr(x,y)

输出PointbiserialrResult(correlation=07849870641173371, pvalue=41459279734903919e-05)

相关文章
|
机器学习/深度学习 数据采集 前端开发
深入探讨模型泛化能力的概念、重要性以及如何通过交叉验证来有效评估和提升模型的泛化能力
【6月更文挑战第13天】本文探讨了机器学习中模型泛化能力的重要性,它是模型对未知数据预测的准确性。过拟合和欠拟合影响泛化能力,而交叉验证是评估模型性能的有效工具。通过K折交叉验证等方法,可以发现并优化模型,提高泛化能力。建议包括调整模型参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
1743 7
|
自然语言处理 数据挖掘
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
897 4
|
机器学习/深度学习 开发者 Python
Python中进行特征重要性分析的9个常用方法
在Python机器学习中,特征重要性分析是理解模型预测关键因素的重要步骤。本文介绍了九种常用方法:排列重要性、内置特征重要性(如`coef_`)、逐项删除法、相关性分析、递归特征消除(RFE)、LASSO回归、SHAP值、部分依赖图和互信息。这些方法适用于不同类型模型和场景,帮助识别关键特征,指导特征选择与模型解释。通过综合应用这些技术,可以提高模型的透明度和预测性能。
1359 0
|
SQL JSON 测试技术
Python中的f-string
Python中的f-string
595 2
|
SQL 数据库 开发者
SQL中的子查询:嵌套查询的深度解析
【8月更文挑战第31天】
1973 0
|
机器学习/深度学习 人工智能 自然语言处理
Transformer介绍
Transformer模型于2017年由Google提出,其在BERT中大放异彩,革新了NLP领域。Transformer的优势在于并行计算能力和处理长距离依赖,通过自注意力机制避免了RNN/LSTM的梯度问题。它由编码器和解码器组成,使用位置编码处理序列信息。Transformer在机器翻译、文本生成、问答系统等多个任务中提升效率和准确性,并扩展至计算机视觉和语音识别。随着AI发展,Transformer成为大模型核心技术,推动整个产业进步。
|
机器学习/深度学习 并行计算 算法
YOLO算法
YOLO(You Only Look Once)是一种实时目标检测算法,将目标检测视为回归问题,通过单个CNN模型预测边界框和类别。YOLOv1使用24个卷积层和2个全连接层,将输入图像划分为7x7网格,每个网格预测2个边界框。模型直接从448x448图像输出7x7x30的张量,每个单元负责检测中心在其内的目标。YOLO训练涉及构造训练样本和损失函数,常采用预训练的Backbone(如CSPDarknet53)和数据增强技术。YOLOv4是YOLO系列的改进版,包括SPP和PANet等结构,提升了精度和速度,使用IOU损失函数,并采用CutMix和马赛克数据增强。
|
SQL Java 数据库连接
myabtis中是否可以映射 Enum 枚举类
myabtis中是否可以映射 Enum 枚举类
|
机器学习/深度学习 监控 算法
YOLO及其原理介绍
YOLO及其原理介绍
|
机器学习/深度学习 自然语言处理 数据处理
一文带你了解RNN循环神经网络
一文带你了解RNN循环神经网络
1006 1