卡方检验 | 学习笔记

简介: 快速学习卡方检验

开发者学堂课程【人工智能必备基础:概率论与数理统计:卡方检验】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7450


卡方检验

一、卡方检验( Chi-square test )

用于检验两个(或多个)率或构成比之间差别是否有统计学意义,配对卡方检验检验配对计数资料的差异是否有统计学意义。

基本思想:

检验实际频数( A ) 和理论频数( T )的差别是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或构成比。

实例:

两种药物治疗胃溃疡有效率的比较

image.png

原假设是用了 A 药和 B 药的有效率是相同的,所以就都认为是 66.67%。A 药有效值理论是 85 乘以 66.67,B 药有效值理论是 48 乘以 66.67。
理论频数与实际频数的差别:

image.png

ARC 是位于 R 行 C 列交叉处的实际频数,TRC 是位于 R 行 C 列交叉处的理论频数。( ARC-TRC ) 反映实际频数与理论频数的差距,除以 TRC 为的是考虑相对差距。所以,x^2 值反映了实际频数与理论频数的吻合程度,x^2 值大,说明实际频数与理论频数的差距大。x^2 值的大小除了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。

理论频数根据假设来计算的:

无效假设是 A 药组与 B 药组的总体相等,均等于合计的阳性率66 67% (110/165)。那么理论上,A 药组的 85 例中阳性人数应为85(110/165)=56.67. 阴性人数为 85(55/165)=28.33: 同理,B 药组的 80 例中阳性人数应为 80(110/165)=53.33, 阴性人数为: 80(55/165)=26.67.
一般的四格表:

image.png

基本公式:

image.png

image.png

若检验假设 H0: π1=π2 成立,四个格子的实际频数 A 与理论频数 T 相差不应该很大,即统计量 x2 不应该很大。如果 x2 值很大,即相对应的 P 值很小,若 P<=α,则反过来推断 A 与 T 相差太大,超出了抽样误差允许的范围,从而怀疑 H0 的正确性,继而拒绝 H0,接受其对立假设 H1,即 π1≠π2 。
实例:
某药晶检验所随机抽取 574 名成年人,研究抗生素的耐药性(资料如表8-11)。问两种人群的耐药率是否一致?

image.png

(1) 建立假设并确定检验水准

HO: 两种人群对该抗生素的耐药率相同,即 π1 = π2; (两总体率相等)

H1: 两种人群对该抗生素的耐药率不同,即 π1≠π2 ; ( 两总体不相等).

α=0.05

(2)计算检验统计量

image.png

(3)得出结果

在表确定 P 值,P>0.05, 得出结论。按 0.05 水准,不拒绝 H0, 可以认为两组人群对该抗生素的耐药率的差异无统计学意义。
卡方检验也可以放到特征选择中。

相关文章
|
4月前
|
SQL 数据可视化 数据挖掘
云上 · 百炼 MCP 数据分析与可视化 Demo 实战
一套跑在阿里云百炼上的“生成 SQL → 执行 → 分析 → 出图”闭环方案,端到端无本地依赖,可发布为组件/网页对外服务。
356 8
创造与魔法脚本,炉石传说脚本,碧蓝航线脚本开源代码
主脚本包含三个游戏自动化模块:创造与魔法(资源采集/任务)、炉石传说(自动天梯)、碧蓝航线(委托/战斗)
|
8月前
|
人工智能 小程序 NoSQL
【一步步开发AI运动小程序】二十一、如何将AI运动项目配置持久化到后端?
本文介绍基于云智「Ai运动识别引擎」的运动配置持久化方案,旨在优化小程序或Uni APP中AI运动识别能力。通过将运动检测参数(如`Key`、`Name`、`TickMode`、`rules`或`samples`)持久化到后端,可避免因频繁调整运动参数而重新发布应用,提升用户体验。持久化数据结构支持规则和姿态样本存储,适用于关系数据库、文件或文档数据库(如MongoDB)。此外,云智还提供运动自动适配工具及「AI乐运动」产品,助力快速实现AI体育、全民健身等场景。
|
11月前
|
人工智能 数据可视化 数据处理
从0到1只需“拖一拖”,开发时间按秒算——低代码到底有多牛
低代码平台正颠覆传统软件开发模式,通过可视化开发、模块化组件和自动化工具,将复杂开发过程大大简化。开发者只需“拖拽”组件并配置参数,即可快速构建应用,无需复杂编程。这不仅大幅缩短开发周期,从数月缩短至几天甚至几小时,还显著降低成本。低代码平台支持实时预览、自动代码生成和快速部署,提升开发效率与团队协作能力。其核心引擎(如SQL引擎、功能引擎等)不断升级,确保高效、灵活的开发体验,并通过模型驱动开发实现智能自动化。此外,低代码平台增强数据处理能力,支持跨数据库兼容性和实时流处理,满足复杂业务需求。AI技术的融合进一步优化开发体验,提供智能代码助手、故障排查等功能。
|
11月前
|
人工智能 并行计算 安全
《鸿蒙Next微内核:解锁人工智能决策树并行计算的加速密码》
在人工智能快速发展的今天,提升运算速度至关重要。鸿蒙Next凭借其微内核架构,将核心功能模块化,简化内核并增强系统稳定性和扩展性。通过高效进程间通信和资源管理,可实现决策树构建、训练和预测任务的并行计算。利用分布式技术,多设备协同处理大规模任务,大幅提升运算效率。设计时需关注数据一致性、任务调度合理性及安全隐私保护。鸿蒙Next为人工智能运算提供了坚实保障,助力其广泛应用与发展。
129 8
|
机器学习/深度学习 自然语言处理 算法
ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719
468 60
|
人工智能 Cloud Native 架构师
CNCF 宣布 Dapr 毕业
Dapr 是一个可移植的分布式应用运行时,提供集成 API,帮助开发者构建可靠和安全的分布式应用,提升生产力 20-40%。Dapr 于 2019 年由微软发布,并于 2021 年 11 月正式加入 CNCF。截至 2024 年 11 月 13 日,Dapr 已正式从 CNCF 毕业。它支持多种云原生技术,广泛应用于 Grafana、FICO、HDFC 银行等企业。
359 2
|
自然语言处理 数据安全/隐私保护 UED
如何选择适合的域名:关键步骤与策略
在数字化时代,域名不仅是网站的身份标识,更是品牌在线形象的重要组成部分。本文将指导您如何选择一个恰当、易于记忆且富有意义的域名,从明确目标与定位、选择合适的域名类型与后缀、考虑长度与可读性、检查可用性与合法性、评估SEO价值、考虑未来扩展、购买与注册到监测与维护,全方位帮助您打造优质域名。
565 4
|
消息中间件 运维 Prometheus
小红书消息中间件的运维实践与治理之路
近年来,消息领域的全面云原生化逐渐走向深入,比如 RocketMQ 5.0 版本的存算分离设计和 raft 模式,再比如 Kafka3.0 引入了分层设计的方式(tiered storage)和 raft 模式,以及近年来新崛起的 Pulsar 也开始采用云原生架构,在未来都可以针对具体业务需求引入进行功能迭代,发挥组件的最大价值。
1354 97
小红书消息中间件的运维实践与治理之路
|
搜索推荐 算法 数据处理
智能推荐AIRec上线“流量调控”功能,助力电商平台甩货
智能推荐AIRec最新上线“流量调控”功能,支持人工干预推荐系统流量的分发,针对商品滞销、库存积压等业务问题,可通过流量调控解决甩货诉求,助力电商快速实现“库存清零”。
1590 0
智能推荐AIRec上线“流量调控”功能,助力电商平台甩货