比较检验2| 学习笔记

简介: 快速学习比较检验2。

开发者学堂课程【机器学习算法 :比较检验2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7179


比较检验2

 

内容介绍

一、假设检验

二、假设检验步骤

 

一、假设检验

统计假设检验:事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。常用的假设检验方法有 t- 检验法,x2 检验法(卡方检验)、F- 检验法等。

基本思想:

1、从样本推断整体

2、通过反证法推断假设是否成立

3、小概率事件在一次实验中基本不会发生

4、不轻易拒绝原假设

5、通过显著性水平定义小概率事件不可能发生的概率

6、全称命题只能被定义而不能被证明(所谓全称命题是指一切全部等等不太容易一个一个验证的,没有办法证实,只要找到一个部分,就能证明这个命题错误;但是要证明这个命题是正确,就很费劲了)

 

二、假设检验步骤

图片2.png

1、建立假设

根据具体问题,建立假设:

(1)原假设(空假设,0假设):根据描述作出假设,这个假设是希望收集证据希望推翻的假设,是一个全称命题,记作 H0(做了一个假设之后,并不是为了证明假设成立,而是为了把假设推翻)

(2)备择假设:收集证据予以支持的假设(很难便利所有的证据证明备择假设成立,但是只要是原假设不成立,那备择假设就成立了,两者互为逆命题),记作 H1

(3)假设的形式(命题中会有显示):

双尾检验:

图片3.png

(原假设里面是相等,从两侧来检验)

左侧单尾检验:

图片4.png

右侧单尾检验:

 图片5.png

(只有小概率事件发生了,才拒绝原假设,检验过程保护原假设)

2、确定检验水准

检验水准:又称显著性水平,记作 α,是指原假设正确,但是最终被拒绝的概率。在做检验的过程中,会犯两种错误:

(1)原假设为真,被拒绝,称作第一类错误,其概率记作 α,即为显著性水平,取值通常为0.05、0.025、0.01等(检验水平不一样)

(2)原假设为假,被接受,称作第二类错误,其概率记作 β,即为检验功效。

显著水平 α=0.05 的意思是:在原假设正确的情况下进行100次抽样,有5次错误拒绝了原假设。

3、构造统计量

根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法的计算相应的统计量。

常见的检验方法:

t 检验:小样本(<30),总体标准差σ未知的正态分布

F 检验:即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验的方法

Z 检验:大样本(>=30)平均值差异性检验,又称 u 检验

X2 检验:即卡方检验。用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析。(确定假设,确定检验水准,然后要收集证据,简单的说就是需要构造一个统计量)如果想要继续了解,可以参考下面这本书。

图片6.png

图片7.png

4、计算 P 值

关于 P 值:

(1)用来判定假设检验结果的参数,和显著性水平 α 相比

(2)在原假设为真的前提下出现观察样本以及更极端情况的概率(如果原来的假设是真的,当前事情会发生的概率是多少)

(3)如果 P 值很小。说明原假设出现的概率很小,应该拒绝(假设不对),p值越小,拒绝原假设的理由越充足。

5、得到结论

(1)如果 P 值小于等于显著水平 α,表面 x 小概率事件发生,拒绝原假设(否则也不能说明原假设成立)

图片8.png

(2)统计量的值如果落在拒绝区域内或者临界值,则拒绝原假设,落在接受域则不能拒绝原假设。

检验一下掷硬币的例子:建立假设硬币没有问题,每次出现正面是事实,但是我们更倾向于硬币有问题。所以原假设设为没有问题(原假设是需要我们推翻的假设)。需要做一个女士投掷硬币的统计量,满足二项式分布。如果硬币没有问题, P 值就是0.0009<0.05,就是小概率发生的。就是说硬币实际上是有问题的。

如果女士说连续掷硬币两次正面向上,原假设是硬币没有问题,α=0.0.5,构造统计量,计算 p 值,p=0.25>0.05,这是判断不能拒绝原假设,但是也不能证明硬币没有问题,所以需要收集更多的数据。

相关文章
|
消息中间件 存储 数据可视化
kafka高可用集群搭建
kafka高可用集群搭建
333 0
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
基于YOLOv8的狗狗品种(多达60种常见犬类)品种鉴别识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
随着宠物经济的不断发展,狗狗已经成为众多家庭的重要成员。不同品种犬类在性格、饲养方式、健康管理上有显著差异,快速准确地识别狗狗品种有着重要应用价值。传统方式依赖人工识别,效率低且易出错。 本项目借助YOLOv8强大的目标检测能力,结合高质量数据集训练,实现60种犬类的高精度自动分类识别,并提供可交互图形界面,极大降低使用门槛。
基于YOLOv8的狗狗品种(多达60种常见犬类)品种鉴别识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
1月前
|
机器学习/深度学习 人工智能 运维
构建AI智能体:二十一、精准检索“翻译官”:qwen-turbo在RAG Query改写中的最佳实践
因为用户的自然提问方式与知识库的客观组织方式天生存在不可调和的差异。如果不进行改写,直接将原始查询用于检索,就如同让一个不懂检索的人自己去漫无目的地查字典,结果往往是找不到、找错了或找到的没法用。Query 改写是保障 RAG 系统可靠性、准确性和可用性的“第一道防线”和“核心基础设施”。它通过一系列技术手段,将用户的意图“翻译”成检索器能高效理解的语言,从而确保后续步骤能在一个高质量的基础上进行。
299 11
|
1月前
|
SQL 架构师 关系型数据库
【Java架构师体系课 | MySQL篇】⑤ 索引优化实战一
本文深入解析MySQL索引优化原理,涵盖联合索引使用、覆盖索引、索引下推、filesort排序机制及trace工具分析执行计划选择等内容,并结合实际案例提供索引设计原则与SQL优化策略。
115 5
|
7月前
|
负载均衡 安全 应用服务中间件
《Nginx反向代理MinIO集群全实战:负载均衡配置、SELinux安全策略与生产环境调优指南》
SELinux(Security-Enhanced Linux) 是 Linux 内核的一个安全模块,用于提供强制访问控制(MAC, Mandatory Access Control),比传统的 Linux 文件权限(DAC, Discretionary Access Control)更严格。用执行命令时不受SELinux的限制,但Nginx Worker 进程:以。在一台新的虚拟机或现有虚拟机上安装 Nginx,这里使用。),确认请求被正确转发到 MinIO 集群。编辑 Nginx 配置文件。
687 1
|
8月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
1201 31
|
8月前
|
存储 分布式计算 大数据
数据湖——大数据存储的新思维,如何打破传统束缚?
数据湖——大数据存储的新思维,如何打破传统束缚?
352 16
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
什么叫生成式人工智能?职业技能的范式转移与能力重构
生成式人工智能(Generative AI)是AI领域的重要分支,其核心在于通过学习数据分布生成新内容,如文本、图像、音乐等。与传统判别式模型不同,生成式AI基于深度学习技术(如Transformer架构),展现出“创造力”,但其本质仍是概率计算的结果。它正在重塑内容创作、编程、设计等多个职业领域,推动职业技能的范式转移。 掌握生成式AI需要理解其技术原理、能力边界及伦理挑战。职业技能培训应聚焦提示设计、结果评估和混合创作三大能力,帮助从业者在人机协作中发挥主导作用。未来,生成式AI将向多模态、个性化发展,而人类的独特价值在于为技术注入人文关怀与道德框架。
|
9月前
|
数据采集 缓存 负载均衡
动态HTTP代理与静态HTTP代理的区别及HTTP代理的常见用途与类型
HTTP代理在网络通信中扮演重要角色,优化数据传输并提供隐私保护和访问控制。本文对比动态与静态HTTP代理,探讨其特点、优劣势及适用场景。静态代理地址固定,适合稳定环境;动态代理灵活切换服务器,增强隐私保护。此外,介绍HTTP代理的常见用途(如缓存加速、匿名浏览、绕过限制等)及类型(透明、普匿、匿名、高匿、正向、反向代理),帮助用户根据需求选择合适的代理方式。最后提醒用户遵守法律法规,确保安全使用。
347 1