多元线性回归分析-2| 学习笔记

简介: 快速学习多元线性回归分析-2。

开发者学堂课程【机器学习算法 :多元线性回归分析-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7200


多元线性回归分析-2

 

内容简介

一、回归方程是否显著:F 检验

二、回归方程是否显著:t 检验

三、自变量的标准化

 

一、回归方程是否显著:F 检验

SST=SSE+SSR

离差平方和等于残差平方和加离差平方和。残差平方和越小越好,回归平方和越大越好

image.png

求方程检验还是要构建统计量

F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造 F 统计量。

image.png

确定假设:检验自变量 X 对因变量 Y 是否有明显影响,即原假设image.png,这就可以看出一元和多元的区别,是要检验所有因变量和自变量的关系,有没有明显的影响。

确定检验水平:采取最常用的 α=0.05α=0.01,α=0.005…

计算统计量:计算自由度为(p,n-p-1)的 F 统计量

下图中的表体现三者之间的关系。

image.png

计算 p 值:根据 F 计算 p 值(也可以直接取比较F值)

得到结论image.png,或者image.png拒绝原假设image.png,接受备择假设

image.png

 

二、回归方程是否显著:t 检验

因变量 y 和自变量 x 之间是否存在线性关系,即image.png是否等于0,使用 t 检验进行判断。

确定假设:检验image.png对 y 是否有作用显著,即原假设image.png,备择假设

确定检验水平:采取最常用的α=0.05α=0.01,α=0.005…

计算统计量:image.png,记image.png,构造统计量 t=image.png

计算 p 值:根据 t 值计算 p 值(也可以直接取比较 T 值),t 分布临界表,自由度 n-p-1,双尾检测

得到结论image.png,或者image.png拒绝原假设image.png,接受备择假设image.png

t检验和F检验对多元线性回归来说不等价,F检验的目标是对所有自变量,t检验目标为单个自变

量,即使 F 检验拒绝原假设,也不等于所有自变量都对因变量有影响,需要使用t检验去逐个验证。

 

三、自变量的标准化

多个自变量 x 的单位不同,其取值也不同,如果取值相差太大,会因计算误差问题导致回归方程结果不理想,需要对其进行标准化。

中心化:找到样本数据的中心(image.png),回归方程会经过这点,通过坐标变化,将原点移到该中心:

image.png

image.png

中心化后的方程:

image.png

中心化不改变回归线的斜率,只改变了直线的截距,所以 β。中心化后变成了0,而其他的回归系数image.png没有变化。

标准化:自变量单位不同,数据大小差异大,不利于在同一个标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,将样本数据标准化处理,然后使用最小二乘法,得到标准化后的回归系数。

y=1+10000* x1+0.1* x2 这时候是和单位有关的,一元是和单位无关的,只有一个变量不存在自变量的相加,假设 x1 的单位是分,x2 的单位是万元或是亿元。在不知道单位的情况下,x1 的影响更大,x2 的影响更小。忽略单位的影响,误差是和其系数相关的,一旦加上单位,就会发生变化,对 x1 x2 消除变量话的影响。用到标准化公式为

image.png

标准化后的方程:image.png

标准化包括中心化,标准化后的公式中有:

image.png

image.png 

简单相关系数image.png

相关阵:简单相关系数组成的矩阵,反应的是变量之间的相关程度。

自变量间的相关阵为 r,若记中心标准化后的设计阵为 X*=(x*ij)n*p 则有:r=(X*)TX*在自变量相关阵的基础上,增加因变量 y 与各自变量 xi 的相关系数 ryi,得到增广相关阵。

image.png

复相关系数与偏相关系数

复相关系数:反映了一个因变量与一组自变量之间相关程度的指标,用来度量复相关程度。复相关系数 R 的平方 R² 被称作决定系数、拟合优度等,对于一元线性方程,R 等同于简单相关系数 r。

偏决定系数;设某多元线性回归模型为image.png,i=1,2,…n。当模型中只含有自变量 x,时 y 的残差平方和记作 SSE(x),含有所有自变量x时的残差平方和记作SSE(x1,X2……Xp),自变量 xk 的加入使得残差平方和相对减少的量被称作偏决定系数。其平方根被称为偏相关系数,记作 r。偏决定系数的公式为:如下图。

image.png

相关文章
|
算法
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
【9月更文挑战第27天】近年来,随着人工智能技术的发展,多模态大语言模型(MLLM)在图形用户界面(GUI)中广泛应用,提升了交互体验。然而,最新研究《环境警示:多模态智能体易受环境干扰》指出,这些智能体可能因环境干扰而行为失准。作者通过实验展示了即使是强大模型也会受无关因素影响,导致不可靠或不可预测的行为。研究还证实,通过环境注入攻击可进一步加剧此问题。尽管如此,多模态GUI智能体依然潜力巨大,未来需改进感知能力和算法以增强鲁棒性,解决环境干扰问题。论文详细内容见:https://arxiv.org/abs/2408.02544。
230 8
|
11月前
|
SQL 运维 算法
链路诊断最佳实践:1 分钟定位错慢根因
目前阿里云 ARMS 已经基于 LLM 大模型实现了单链路智能诊断,综合调用链、方法栈、异常堆栈、SQL、指标等多模态数据,结合链路诊断领域专家经验,有效识别单次请求的错慢根因,并给出相应的优化建议。
653 100
|
开发工具 C++ git
利用VS Code提升开发效率的五大插件推荐
本文推荐了五款能显著提升开发效率的VS Code插件:ESLint用于代码质量和风格检查;Prettier自动格式化代码;GitLens增强Git功能;Live Server提供前端实时预览;Docker支持容器管理。
ly~
|
数据可视化 BI API
除了 OpenGL,还有哪些常用的图形库可以在 C 语言中使用?
除了OpenGL,C语言中还有多个常用的图形库:SDL,适合初学者,用于2D游戏和多媒体应用;Allegro,高性能,支持2D/3D图形,广泛应用于游戏开发;Cairo,矢量图形库,支持高质量图形输出,适用于数据可视化;SFML,提供简单接口,用于2D/3D游戏及多媒体应用;GTK+,开源窗口工具包,用于创建图形用户界面。这些库各有特色,适用于不同的开发需求。
ly~
3106 4
|
存储 关系型数据库 MySQL
【阿里规约】阿里开发手册解读——数据库和ORM篇
从命名规范、建表规范、查询规范、索引规范、操作规范等角度出发,详细阐述MySQL数据库使用过程中所需要遵循的各种规范。
【阿里规约】阿里开发手册解读——数据库和ORM篇
|
搜索推荐
推荐新闻之多路召回
推荐新闻之多路召回
331 4
|
数据采集 消息中间件 并行计算
进程、线程与协程:并发执行的三种重要概念与应用
进程、线程与协程:并发执行的三种重要概念与应用
417 0
|
缓存 Linux 测试技术
安装【银河麒麟V10】linux系统--并挂载镜像12
【7月更文挑战第12天】安装【银河麒麟V10】linux系统--并挂载镜像
5082 0
|
机器学习/深度学习 数据采集 算法
机器学习基础:令你事半功倍的pipeline处理机制
机器学习基础:令你事半功倍的pipeline处理机制
机器学习基础:令你事半功倍的pipeline处理机制
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?