什么是回归分析| 学习笔记

简介: 快速学习什么是回归分析。

开发者学堂课程【机器学习算法 :什么是回归分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7184


什么是回归分析

 

内容介绍

一、变量间关系

二、回归

三、线性和非线性

四、模型的一般形式

五、几个基本假设

 

一、变量间关系

线性回归是一个比较古老、历史悠久的分析方法,应用范围也比较广泛。

先来看一下如何定义变量之间的关系,回想在初中、高中数学时,变量的关系通常是通过一个函数来定义,如左侧的图片 y=x+0.3。这说明变量 x 和变量 y 之间存在一个严格定义的变量关系,比如说已经知道了x的值,就可以通过函数关系来计算出对应的y值,这个是一个严格的关系。在实际生活中,所看到的变量的关系是不能通过一个严格的函数来定义,但看上去这些数值、变量存在一定的联系,比如右侧的图。可以看到这些点仿佛都在一条直线上,或是在一条直线的两侧,小范围的波动,这个参考线画出来也是 y=x+0.3。可以看到虽然这个点没有准确的在直线上,但它们都在这条直线左右小范围的浮动。找到这个参考线,对后面的预测、评估有非常大的作用。比如当 x=4时,实际值是6,在不知道y的值的情况下,像预测 x 等于4时的 y 的取值,就可以通过这个参考线来计算。而它的实际值和预测值有一个1.7的差异,就叫做误差。右侧的图就是一个非严格的函数关系,但是 x 和 y之间存在一个密切的联系,可以通过这个接近于联系的函数关系来描述y和x之间可能存在的关系,用这个关系来做一些预测。

变量之间 X、Y 之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)。

image.png

 

二、回归

回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。

介绍回归的起源,图上的是高尔顿,是英国的探险家和科学家,在很多领域做过研究、天文地理、气象统计等等。深受达尔文进化论的影响,19世纪80年代高尔顿就开始思考父代和子代的相似性问题。搜集了1074对父母及孩子的身高,将结果描成散点图,一组数据对应一个点,发现趋势近乎一条直线。总的来说是父母平均身高X增加时,其子的身高 Y 也倾向于增加。

他计算了这些父母身高的平均值为68英寸,孩子的平均身高为69英寸,他猜想儿子的身高应该是父母身高+1英寸,结果并非如此,当父母身高低于平均身高时,其孩子的身高要高于猜想的身高,当父母身高高于平均身高时,孩子身高低于猜想的身高。

高尔顿对此研究后得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。如果父母身高(或矮了),其子女比他们更高矮),则人类身材将向高、矮两个极端分化。自然界不这样做,它让身高有一种回归到中心的作用。这个性质被 Galton 成为“回归”。

image.png

换一个方式解释,比如考试。平均分是80分,再考一次,原本超过80分的人会有一个平均分移动的局势。比如第一回考了98,下一回就有可能向着80分变化;第一回考20分,下一回更有可能靠近平均分;这个性质叫做回归。再一个例子,射箭,正常水平是8环,第一次射中的10环,那下一箭就会很可能的往8环去移动,结果可能是9环或是6环;反过来这一箭第一次射了5环,那么下一箭高过5环靠近8环的可能性更大;这就是回归。

如果说回归是在两个变量之间的,一个是因变量,一个是自变量。自变量就是x,可以自己变。因变量是因为自变量发生变化而改变。可以根据因变量的多少分为一元回归或是多元回归,另外从线性和非线性的角度可以分为线性回归和非线性回归

 

三、线性和非线性

(1)线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和其次性,通俗理解就是两个变量之间存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)。

例如:

1.超市买袜子,每双3元,没有折扣,如果把办购物卡的5元也算进来,则消费金额和购买袜子的数量如图所示,为线性关系

2.路边摊买袜子,一双3元,两双5元,三双7元,4双10元…..,此时消费金额和购买袜子的数量如图所示,为非线性关系

image.png

(2)线性回归

线性回归(Linear  Regression ):在回归分析中,如果自变量和因变量之间存在着线性关系则被称作线性回归。如果只有一个因变量一个自变量,则被称作一元线性回归,如果有一个量多个自变量,则被称作多元回归。

image.png

如左侧图片,是房屋面积和价格的关系,只有两个变量,一个是自变量面积,一个是因变量价格。看上去基本上是满足一个线性回归。

而右侧的是房龄、面积和价格之间的关系,价格是因变量,另外两个是自变量,这个图化成了一个曲面,这种就是多元回归。

 

四、模型的一般形式

回归模型的一般形式:image.png

F就是代表确定性关系,代表是随机误差(扰动项)。产生随机误差的几个因素是:影响因素确实,就是函数表达式中缺少一项;观测、测量误差,是在读数时造成的误差;还有其他的随机误差。如果是影响因素确实,可以加入一些因素使得误差变小,但是其他误差是不太容易去掉。

image.png为线性函数,即:

image.png

image.png

image.png被称为回归系数

image.png

看图中的折线图,y=x+0.3+ε

对于一个点来说,ε前面的部分就称为确定性的关系,后面加上的是随机性的误差,image.png等于1,这些称之为回归系数。X 表示自变量,y 表示因变量,最后再加上随机误差。在预测的过程中,后面的随机误差是会忽略掉的,因为不知道ε的值是多少,预测过程中是不知道的。比如现在要预测 x=12 时对应的有 y 值多少,直接带入式子 y=x+0.3 中预测 y 的值,它有很大的几率是不等于12.3,它有随机误差,但无法预测到误差值。所以在真正的使用回归模型预测时候,后面的ε不会加上,只要前面的确定性关系,无法确定ε就选择忽略掉。但在建模、评估模型的时候需要去考虑随机误差的存在,毕竟是一项、有一定的取值。模型建的好的情况下,ε的值有一定的分布,实际可以运用概率分布的知识做一下研究。

 

五、几个基本假设

回归模型本身有几个基本的假设,有几个前置假设条件,只有这些条件满足了,这个模型才是一个理想的模型

线性回归有几个基本的前置假设条件:

1.零均值:随机误差项均值为 0,保证未考虑的因素对被解释变量没有系统性的影响。随机误差是0,就是有时为正,有时为负,是分布在直线的两侧。

2.同方差:随机误差项方差相同,在给定x的情况下,ε 的条件方差为某个常数 σ?

3.无自相关:两个 c 之间不相关image.png.就是这两个的相关系数为0.

4.正态分布:ε符合正态分布image.pngN(0,σ²)

5.解释变量image.png是非随机变量,其观测值是常数

6.解释变量之间不存在精确的线性关系,就是image.png之间不存在精确的线性关系,否则的话(比如image.png这就是一个精确的线性关系,这时image.png这一项是没有必要存在的,直接把image.png代入方程中即可)

7.样本个数要多于解释变量的个数,这个是一定的,否则没有办法求解写出系数。比如一个方程组有四个未知数,那么这个方程组至少要超过四个方程才可以解出,所以样本个数要多于变量的个数。

注意:回归看上去比较简单,尤其是线性回归,但是很多人在运用中表示效果不好,但实际上很多人是没有检查数据、情景是否满足这些前置条件。若满足,效果还是可以的;若不满足,效果必然不理想。

相关文章
|
人工智能
AI代码生成器——Codeium
【2月更文挑战第21天】AI代码生成器——Codeium
1752 1
AI代码生成器——Codeium
|
11月前
|
存储 数据采集 算法
企业车间执行系统MES
制造执行系统(MES)是面向制造企业车间的生产信息化管理系统,涵盖数据采集、存储管理、生产调度、系统集成等关键技术。其功能模块包括生产计划与排程、生产调度与控制、质量管理、设备管理和物料管理等,支持实时监控和优化生产流程。未来,MES将向智能化、云化、工业互联网融合和微服务化发展,提升生产效率和质量。
305 11
企业车间执行系统MES
|
10月前
|
自然语言处理 安全 API
反向海淘Superbuy代购集运系统搭建攻略详解
Superbuy代购模式是跨境淘宝代购集运系统,提供一站式购物及物流解决方案。它整合了淘宝、天猫、京东等平台的商品资源,涵盖服装、电子产品等多品类,满足海外用户多样化需求。系统支持多语言和货币切换,提供代买、待收、代运等全程服务,并通过API接口实现实时数据同步。用户可享受集运、质检、仓储及高效国际物流服务,确保购物体验便捷、安全且经济。
|
机器学习/深度学习 算法 API
NVIDIA Triton系列07-image_client 用户端参数
本文详细介绍了NVIDIA Triton推理服务器的Python版image_client.py用户端参数,通过具体实例演示了如何使用这些参数与Triton服务器交互,包括指定服务器地址、选择模型、设置图像缩放方式、批量处理图片等关键操作,为初学者提供了实用的指导。实验环境搭建在Jetson AGX Orin和树莓派上,确保了内容的实践性和可操作性。
217 0
NVIDIA Triton系列07-image_client 用户端参数
|
数据可视化 数据挖掘 数据处理
ChatGPT数据分析应用——热力图分析
ChatGPT数据分析应用——热力图分析
549 1
|
运维 监控 Linux
探究-ping指令的使用
【9月更文挑战第2天】`ping` 指令是网络诊断工具,通过发送 ICMP 回显请求并接收应答,测试网络连接的可达性和响应时间。在 Windows、Linux 和 macOS 中均可使用。主要参数包括 `-t`(持续监测)、`-n`(指定次数)和 `-l`(数据包大小)。结果分析关注回显时间、数据包丢失率和 TTL 值,适用于网络故障排查、性能评估和服务器监控。掌握 `ping` 的使用方法可帮助管理和优化网络连接。
1241 3
|
SQL 数据库管理 索引
SQL语句查询教师表:高效构建与技巧分享
在数据库管理中,查询操作是最基础也是最重要的功能之一
|
机器学习/深度学习 供应链 算法
【2023高教社杯】C题 蔬菜类商品的自动定价与补货决策 52页论文及代码
本文提出了一个基于动态规划的蔬菜补货和定价策略,通过分析蔬菜品类间销售量的分布规律和相互关系,利用多元回归、随机森林、灰色预测等方法预测市场需求,并建立数学模型以最大化商超收益。
482 0
【2023高教社杯】C题 蔬菜类商品的自动定价与补货决策 52页论文及代码
|
监控 测试技术 持续交付
代码质量评估与改进策略:打造高效、可维护的软件基石
【7月更文挑战第26天】代码质量是软件开发中不可忽视的重要环节。通过有效的评估方法和改进策略,我们可以不断提升代码质量,打造高效、可维护的软件系统。作为开发者,我们应该始终关注代码质量,将其视为自己专业能力的体现和团队成功的保障。只有这样,我们才能在激烈的市场竞争中立于不败之地,为用户提供更加优质的产品和服务。
|
算法 Linux 调度
根基已筑!Anolis OS 23.1 预览版本搭载 Linux 6.6 内核和工具链升级完成
Anolis OS 23.1 对软件包的选择和组合进行了重新规划与决策,满足更为广泛的应用场景需求。