假设检验中的两类错误 | 学习笔记

简介: 快速学习假设检验中的两类错误

开发者学堂课程【人工智能必备基础:概率论与数理统计:假设检验中的两类错误】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7451


假设检验中的两类错误

内容介绍

一. 假设检验中的两类错误

二. 实例

三. a 错误出现原因

四. β 错误出现原因

五. a 错误概率计算

六. β 错误的概率计算

七. 总结

 

一.假设检验中的两类错误

第一类错误(弃真错误):

原假设为真时拒绝原假设。

第一类错误的概率为 a

第二类错误(取伪错误):

原假设为假时接受原假设

第二类错误的概率为 β

image.png

没有办法让两类错误同时减小

image.png


二. 实例

一个公司有员工 3000 人(研究的总体),为了检验公司员工工资统计报表的真实性,研究者作了 50 人的大样本随机抽样调查,人均收入的调查结果是; X(样本均值)=871元: S(标准差)=21 元问能否认为统计报表中人均收入=880 元 的数据是真实的?(显著性水平 α=0.05 )

原假设 HO: 调查数据 871 元与报表数据 880 元之间没有显著性差异,公司员工工资均值的真实情况为 880 元。假设 H1: 调查数据和报表数据之间有显著性的差品,公司员工工资均值的直实情况不是 880元

 

三.a 错误出现原因

我们只抽了一个样本,而个别的样本可能是特殊的,不管你的抽样多么符合科学抽样的要求。理论上讲。在 3000 个员工中随机抽取 50 人作为调查样本,有很多种构成样本的可能性,相当于 3000 选 50,这个数目是很大的。这样,在理论上就有存在很多个样本平均数。也就是说,由于小概率事件的出现,我们把本来真实的原假设拒绝了。这就是 a 错误出现的原因。

 

四.β 错误出现原因

第二个问题是,统计检验的逻辑犯了从结论推断前提的错误。命题是由命题经演绎推论出来的,或写作符号 A→B,命题 C 是我们在检验中所依据操作法则。如果 A是真的,且我们从 A 到 B 的演绎推论如果也是正确的,那么可能是真实的。相反,如果结果 B 是真实的,那么就不能得出 A 必定是真实的结论。这就是 β 错误出现的原因。

 

五.a 错误概率计算

由实际推原理引起的。即“小概率事件不会发生”的假定所引起的,所以有理由将所有小概率事件发生的概率之和或者即显著性水平 (a=0.05) 看作 a 错误发生的

概率,换言之,a 错误发生的概率为检验所选择的显著性水平。如果是单侧检验,弃真错误的概率则为 a/2。

 

六.β 错误的概率计算

犯错误的概率的计算是比较复杂的,由于错误的出现原因是属于逻辑上的,所以在总体参数不知道的情况下是无法计算它出现概率的大小的。我们在以上例了的基础上进一步设计;这个公司职员的实际工资不是 880 元,而是是 870 元,原假设为伪,仍然假设实际工资是 880 元。这样我们就可以在总体均值为 870 元和 880 元两种情况下,分别作出两条正态分布曲线( A 线和 B 线)

image.png

犯错误的概率大小就是相对正态曲线 A 而言,图 1 中阴影部分的面积: ZX1=1.41;ZX2=5.59

查标准正态分布表可知,=(ZX2)Ф(ZX1)=00793 结果表明,如果总体的真值为 870元,而虚无假设为 880 元的话,那么,平均而言每 100 次抽样中,将约有8次把真实情况当作 880 元被接受,即犯B错误的概率大小是 0.0793。

 

七.总结

犯第一类错误的危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。想对而言,第二类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成第一类错误)。

相关文章
|
8月前
|
机器学习/深度学习 缓存 关系型数据库
《深度解析LightGBM与MySQL数据集成:高效机器学习的新范式》
LightGBM与MySQL的深度集成,为机器学习提供从数据到模型预测的完整解决方案。通过高效的数据管道、智能缓存及压缩技术,实现海量数据低延迟访问,支持实时特征工程与增量训练。该方案突破传统ETL瓶颈,保障生产环境可靠性,未来还将拓展联邦学习与元数据驱动等方向,推动数据智能深度融合,加速AI产业落地。
204 21
|
安全 IDE Java
使用Spring Initailizr功能~
使用Spring Initailizr功能~
612 1
|
分布式计算 自然语言处理 DataWorks
高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。
18588 3
高效使用 PyODPS 最佳实践
|
8月前
|
数据采集 人工智能 大数据
演讲实录:中小企业如何快速构建AI应用?
AI时代飞速发展,大模型和AI的应用创新不断涌现,面对百花齐放的AI模型,阿里云计算平台大数据AI解决方案总监魏博文分享如何通过阿里云提供的大数据AI一体化平台,解决企业开发难、部署繁、成本高等一系列问题,让中小企业快速搭建AI应用。
|
8月前
|
机器学习/深度学习 人工智能 算法
AI鱼类识别技术原理及示例代码
本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。
|
11月前
|
机器学习/深度学习 算法 PyTorch
PyTorch 实现MobileNetV1用于图像分类
本实验基于PyTorch和昇腾平台,详细讲解了如何使用MobileNetV1模型对CIFAR10数据集进行图像分类。内容涵盖MobileNetV1的特点、网络架构剖析(尤其是深度可分离卷积)、代码实现及训练过程。通过该实验,读者可以掌握轻量级CNN模型在移动端或嵌入式设备中的应用,并了解其在资源受限环境下的高效表现。实验包括数据预处理、模型训练与测试等环节,帮助用户快速上手并优化模型性能。
416 53
|
12月前
|
数据挖掘 数据处理 索引
Pandas数据重命名:列名与索引为标题
Pandas 是强大的数据分析工具,支持灵活的数据结构和操作。本文介绍如何使用 Pandas 对 `DataFrame` 的列名和索引进行重命名,包括直接赋值法、`rename()` 方法及索引修改。通过代码示例展示了具体操作,并讨论了常见问题如名称冲突、数据类型不匹配及 `inplace` 参数的使用。掌握这些技巧可使数据更清晰易懂,便于后续分析。
890 29
|
机器学习/深度学习 数据挖掘 数据处理
深度学习之卫星图像中的环境监测
基于深度学习的卫星图像环境监测是指通过使用深度学习模型处理和分析来自卫星的遥感数据,以实现对地球环境的自动化监测和分析。这项技术极大提升了环境监测的效率、精度和规模,应用于气候变化研究、生态保护、自然灾害监测、城市扩张评估等多个领域。
540 1
|
10月前
|
安全 网络安全 数据中心
服务器托管适用什么场景?
在数字化时代,服务器托管对企业运营至关重要。本文解析了五种常见托管方式:共享托管经济实惠,适合小型网站;VPS灵活可控,适合中小型企业;专用服务器性能卓越,适合大型应用;云托管灵活扩展,适应现代需求;托管式服务外包管理,省心省力。选择时需综合考虑预算、技术能力及性能要求,找到最佳解决方案。
427 0
Vision Transformer 图像分类识别 基于 ViT(Vision Transformer)的图像十分类 实战 完整代码 毕业设计
Vision Transformer 图像分类识别 基于 ViT(Vision Transformer)的图像十分类 实战 完整代码 毕业设计
406 0
Vision Transformer 图像分类识别 基于 ViT(Vision Transformer)的图像十分类 实战 完整代码 毕业设计