回归模型的显著性检验-2| 学习笔记

简介: 快速学习回归模型的显著性检验-2。

开发者学堂课程【机器学习算法 :回归模型的显著性检验-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7194


回归模型的显著性检验-2

 

内容介绍

一、相关系数显著性检验:t检验

二、决定系数

 

一、相关系数显著性检验:t 检验

相关系数( Correlation   Coefficient )由卡尔·皮尔逊设计的统计指标,描述了变量之间线性相关程度的量,一般用字母r表示,有多种定义方式,一般是指皮尔逊相关系数。

一般常说的相关系数,就是指的是这个皮尔逊相关系数r

image.png

r的取值范围为[-1,1],r>0表示正相关(就是x每增加一个单位,y对应的增加一个单位),r<0表示负相关(x每增加一个单位,y对应的减少一个单位),r=0表示不相关(两者之间没有关系)。

如下图中的内容显示,第一个图中是正相关的,x、y之间的变化是相关的,x增大时y也增大,x减小时y也减小;负相关刚好相反,可以看到一些点在线周围,x增大时y减小,x减小时y增大。最右侧的就是看上去没有什么关系的,就是不相关。

image.png

样本相关系数:r可作为总体相关系数image.png的估计值,但从相关系数,image.png=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差所以不一定是0,要判断不等于0的r值是来自image.png=0的总体还是来自image.png的总体,必须进行显著性检验。存在随机误差,要减少随机误差带来的影响。

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png(就是说x和y之间没有线性关系),备择假设image.png(实际上y和x之间存在线性关系)。

确定检验水平:采取较为严格的的α=0.01

计算统计量:计算t统计量,原假设image.png成立,image.png

计算p值:n=15,r=0.9610,t=13.07,计算得到 image.png

(也可以查相关系数临界值表,查到α=0.01,degree=13对应的值为0.641,小于计算大得到的t值)

得到结论:image.png,拒绝原假设image.png,接受备择假设image.png

 

二、决定系数

通过平方和分解式 SST=SSR+SSE,SSR 占的比重越大,线性回归效果越好,即回归直线与样本观测值的拟合优度越好。定义回归平方和占总离差平方和的比例为决定系数(Coefficient of  Determination ),也称确定系数,记作 r²:image.png

决定系数是一个相对指标,取值在0~1之间,接近1表明回归方程拟合效果较好,但是需要注意几点:

样本量较小时,决定系数并不能真正反应实际情况,需要调整决定系数

决定系数较大,同样也不能肯定自变量与因变量之间关系就是线性的,可能曲线拟合更好,特别当自变量取值范围较小时,决定系数通常较大,可以做模型失拟检验(Lack of Fit Test)。在讲参数估计的时候,为了变得更好其中有一点就是在可取范围取得越快,回归系数的方差越小,回归模型就越好。所以这个系数大,就不一定是线性的,也可能回归系数较好。

决定系数较小,如果样本量较小,则得到线性回归不显著的结果,如果样本量较大,则会得到线性回归显著;最后改进回归,如增加自变量、尝试曲线回归拟合等。

有一个统计学家F.J.Anscombe他创造了四组数据,每个数据中就两个变量,x、y。x、y的均值都一样,并且经验回归方程相同:y=3+0.5x,决定系数image.png,F统计量相同。看上去这四组数据拟合应该可以,但实际上如下图所示。

image.png

看第四组数据,x只有一个值不一样,剩下全相等,但对应的y值都不一样,这肯定是存在问题的。

第一组数据的图,可以看出的效果还是可以的;第二个中会看到绝对值系数还可以但用一个曲线来更好;第三个看到将一个异常值把整个正常值带偏了,一般是将异常值忽略掉,这样对方程的拟合效果更好;第四个更为离奇,一个异常值直接

image.png

可以看到这四组数据的方差均值都一样,实际上这未必证明这个模型是好用的。这也是后续在学习中要解决。明白的一个问题。

相关文章
|
4月前
|
Ubuntu Linux
计算机基础知识:linux系统怎么安装?
在虚拟机软件中创建一个新的虚拟机,并选择相应操作系统类型和硬盘空间大小等参数。将下载的 ISO 镜像文件加载到虚拟机中。启动虚拟机,进入安装界面,并按照步骤进行安装。安装完成后,可以在虚拟机中使用 Linux 系统。
|
2月前
|
人工智能 自然语言处理 数据中心
65_GPU选择:A100 vs RTX系列
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1,从专业领域应用到消费级产品,LLM正在以前所未有的速度改变着我们的工作和生活方式。然而,这些强大模型的训练和部署背后,都离不开高性能计算硬件的支持,尤其是GPU(图形处理单元)的选择,往往直接决定了项目的可行性、效率和成本。
|
人工智能 JSON Rust
用 Rust 实现敏感信息拦截插件,提升 AI 网关安全防护能力
本⽂对敏感信息拦截插件的使用方式和实现原理进行了简单介绍,它能够自动检测并处理请求和响应中的敏感词,有效防止敏感信息泄露。通过对不同数据范围的支持和灵活的配置选项,该插件能够适应各种应用场景,确保数据的安全性和合规性。
583 98
|
10月前
|
关系型数据库 MySQL 数据库
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
随着数据量增长和业务扩展,单个数据库难以满足需求,需调整为集群模式以实现负载均衡和读写分离。MySQL主从复制是常见的高可用架构,通过binlog日志同步数据,确保主从数据一致性。本文详细介绍MySQL主从复制原理及配置步骤,包括一主二从集群的搭建过程,帮助读者实现稳定可靠的数据库高可用架构。
592 9
RDS用多了,你还知道MySQL主从复制底层原理和实现方案吗?
|
9月前
|
云安全 存储 安全
阿里云安全体检功能深度评测报告
本次体检通过深度扫描发现了4类安全隐患:高危端口暴露、未修复的Log4j2漏洞、OSS存储桶权限错误。针对这些问题,我们采取了具体修复措施,如限制源IP、热更新参数等。体检项目在安全组可视化、漏洞修复指引等方面表现出色,但也存在容器安全检测不足等问题。建议增加一键阻断功能和OpenAPI接口,优化误报反馈机制,并添加合规检测模块。总体而言,阿里云安全体检在风险发现效率上表现优异,建议与云防火墙等产品联动,形成动态防御体系。
|
12月前
|
人工智能 自然语言处理 搜索推荐
智能语音助手的发展与未来:开启人机交互的新篇章
智能语音助手的发展与未来:开启人机交互的新篇章
1924 28
时序图----购买商品的时序图画法
这篇文章介绍了如何绘制购买商品的时序图,包括用户(商家、顾客)与在线购物系统以及在线购物系统与第三方支付系统之间的交互过程。
时序图----购买商品的时序图画法
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
708 0
|
知识图谱 自然语言处理 算法
大语言模型 RAG 论文总结(2023~202404)(1)
大语言模型 RAG 论文总结(2023~202404)
715 0
|
自动驾驶 机器人 测试技术
CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了
【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)
482 1