多元线性回归案例| 学习笔记

简介: 快速学习多元线性回归案例。

开发者学堂课程【机器学习算法 :多元线性回归案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7201


多元线性回归案例

 

一、汽车油耗分析

image.png

1974年一个美国杂志提供了一个叫《Motor Trend》的数据集,包括油耗、车辆设计、性能等在内的11个变量,32种车型的观测记录,数据情况如图。

现在想要研究油耗和车辆的哪些因素有关?具体的影响力度有多大?

此时需要选用多元线性回归模型,因为和多个变量有关,想看油耗和车辆的哪一些因素有关就用多元线性回归。重要的一点,具体的影响力度怎么弄?是只要看车辆的油耗和各个变量的相关系数就可以。看影响力度多大,靠量化是不够的,选用多元线性回归模型。

数据集如下:

image.png

建模思路:

多元线性回归建模的主要思路:

Ø 确定因变量和可能有影响的自变量,可能对因变量造成影响的因素。

Ø 假定因变量与自变量之间为线性关系,建立线性关系模型。若是非线性就不再多元回归模型内。

Ø 对模型进行评估和检验

Ø 调整优化模型

Ø 判断模型中是否存在多重共线性,有则处理

Ø 利用回归方程进行预测,并利用预测的残差分析模型的假定

后面三个会有专门的一章来讲解,多元回归模型的调整,以及对不满足数据的假设方法。只看前面三点

确定变量:因变量y为mpg,自变量x0,x1……x10依次为cyl,disp,hp,drat,wt,qsee,vs,am,gear, carb

回归方程为:image.png

参数估计:将32条数据代入,使用最小二乘法估算参数,有image.png

使用工具或者手算得到β的取值为:

image.png

转置成一个矩阵是十一行一列

经验回归方程为:

y=12.30337416-0.11144048*x1+0.01333524.x2-0.02148212·x3+0.78711097* x4

-3.71530393*x5+0.82104075·x6+0.31776281* x7+2.52022689·x8+0.65541302* x9+0.19941925* x10

image.png

计算回归值(模型估计值)9:将32条观测记录的值代入经验回归方程,计算32个估计值

观测值yi:这两值得详细数据参考下面图片。

计算平均值image.pngimage.png

计算残差平方和SSE :image.png

计算回归平方和SSR:image.png

计算拟合优度(决定系数 )image.png

计算校正决定系数image.png

样本量较小得时候,只看拟合优度是不行的,要看矫正决定系数

image.png

回归方程显著性

回归方程检验:原假设为image.png

确定检验水平:image.png

计算统计量:计算自由度为(p,n-p-1)即(10,21)的F统计量

image.png

计算p值:利用工具求出自由度为(10,21)且F=13,93247时,对应的p=3.73144×10-7 

得到结论:image.png拒绝原假设,即回归系数β不能全部为0,换句话说,我们得到的多元线性回归方程有意义,即因变量y与参与建模的十个自变量x整体上存在线性回归的关系。

回归系数显著性

回归系数检验:检验image.png对y是否有作用显著,即原假设image.png,备择假设image.png

确定检验水平:α=0.05

计算统计量:image.png,构造统计量image.png

根据样本数据计算image.png

计算p值:根据t值计算p值 p=0.916088

得到结论image.png,无法拒绝原假设image.png,即认为image.png有很大可能,即自变量x1对应的特征cyl对因变量y代表的mpq的线性关系不显著。

当选择0.05,p的值全部大于0.05,也就是说所有的回归系数都不显著,除了重量。方程对自变量的影响都有限。

image.png

多元线性回归建模的主要思路:

确定因变量和可能有影响的自变量,可能对因变量造成影响的因素。

假定因变量与自变量之间为线性关系,建立线性关系模型。若是非线性就不再多元回归模型内。

对模型进行评估和检验

调整优化模型

判断模型中是否存在多重共线性,有则处理

利用回归方程进行预测,并利用预测的残差分析模型的假定

相关文章
|
机器学习/深度学习 存储 数据采集
数据分析案例-基于多元线性回归算法预测学生期末成绩
数据分析案例-基于多元线性回归算法预测学生期末成绩
2061 0
数据分析案例-基于多元线性回归算法预测学生期末成绩
|
算法 数据挖掘
R语言中的非线性回归模型
【4月更文挑战第27天】本文探讨了R语言中非线性回归模型的构建与应用,适用于处理非线性变量关系。模型设定涉及响应变量与解释变量的非线性函数连接,如幂函数、指数函数。参数估计通过最小化残差平方和实现,R提供`nls()`等函数支持。非线性回归广泛应用于生物学、经济学和工程学等领域,解决复杂系统中的非线性问题。实践中需注意初始参数选择、局部最优解及模型诊断验证。有效运用非线性回归模型能揭示数据模式,助力数据分析和决策。
467 2
|
数据采集 数据可视化 vr&ar
Python3实现基于ARIMA模型来预测茅台股票价格趋势
Python3实现基于ARIMA模型来预测茅台股票价格趋势
1386 0
|
机器学习/深度学习 资源调度 算法
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
【机器学习基础】多元线性回归(适合初学者的保姆级文章)
1011 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态交互+大模型赋能:2025AI数字人十大技术突破全景解析
AI数字人2025迎十大突破:超拟真语音、高精度表情、多模态交互、大模型赋能、实时渲染优化、跨语言翻译、情感计算、虚实融合、隐私安全与自主学习,广泛应用于政务、医疗、金融等领域。世优科技推出“世优波塔”,实现全栈式落地,助力企业数字化转型。
283 0
多模态交互+大模型赋能:2025AI数字人十大技术突破全景解析
|
消息中间件
RabbitMQ的高可用机制 ?
RabbitMQ基于Erlang语言,支持集群模式。普通集群通过分布式队列提高并发,但队列不在访问节点时需跨节点传递,且队列节点宕机会导致消息丢失。镜像集群在普通集群基础上增加主从备份,确保数据高可用,主节点故障时镜像节点可接替工作。
230 1
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
1537 1
|
监控 数据挖掘 BI
ERP系统中的工作流管理与自动化
【7月更文挑战第25天】 ERP系统中的工作流管理与自动化
725 2
ERP系统中的工作流管理与自动化
|
机器学习/深度学习 数据采集 索引
探索数据的维度:多元线性回归在实际应用中的威力
探索数据的维度:多元线性回归在实际应用中的威力
|
人工智能 自然语言处理 API
谷歌Gemini使用教程,从认识gemini到精通使用
谷歌 Gemini 是由 Google 开发的一种多模态 AI 语言模型,具备多项强大功能,能够理解和生成自然语言,协助完成各种与语言相关的任务。