违背基本假设-1| 学习笔记

简介: 快速学习违背基本假设-1。

开发者学堂课程【机器学习算法 :违背基本假设-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7204


违背基本假设-1

 

内容介绍

一、回顾回归模型的基本假设

二、常见不满足基本假设的情况

 

一、回顾回归模型的基本假设

线性回归有几个基本的前置假设条件:

零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响。随机误差是0,就是有时为正,有时为负,是分布在直线的两侧。

同方差:随机误差项方差相同,在给定 x 的情况下,ε 的条件方差为某个常数 σ2

无自相关:两个 c 之间不相关,image.png.就是这两个的相关系数为0.

正态分布:ε符合正态分布image.png~N(0,σ²)

解释变量image.png是非随机变量,其观测值是常数

解释变量之间不存在精确的线性关系,样本个数要多于解释变量的个数。

前四个都是模型数据中获得的,剩下就是从模型之外的、预测不到的东西所满足的前置条件。事实上,假设条件比较严格,在一些做现实问题的大多数时候,会发现并不是所有的基本假设都会满足,就需要对不满足基本假设的进行处理。

 

二、常见不满足基本假设的情况

异方差、自相关、异常值从这三个方向来看出现的问题、预测产生的影响、还有一些常见的方法去消除对模型的影响

1. 异方差

回归模型中的异方差( Heteroscedasticity )是指随机误差项的方差不是一个常数,而是随着变量的取值变化而变化。在做线性回归的时候就要求时同方差。

由于不满足回归分析中的同方差( Homoscedasticity )的前提假设,异方差将可能带来以下问题:

对使用最小二乘法(OLS)求解参数时)参数估计值虽然无偏,但是不是最小方差线性无偏估计

参数的显著性检验失效

回归方程的应用效果不理想,如果回归方程不满足前提条件,实际上在估算参数时就会有问题。就是估出的参数不是最佳参数,通过之前检验常规模型的时候,失效检验不成功。只要一提方差,这一步就都有问题。怎个参数估计、校验有问题,对应用也有影响。

造成异方差的常见原因:

(1)模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中

就是说这个模型就要是来通过分析影响的方差生成,也就是说整个的模型可以通过方差来代表,就是这些因素的变化能够表现出来就还算好的。如果一个模型由十个原因造成,但在回归模型时只选择了八个,漏选了两个因素的方差较大,那么这个模型不好。这个模型其中有一部分没有体现出来,在方差中没有提取出来有用的因素,就造成了随机变换隐藏了两个关键因素的方差,所以就不是真正的误差。

以下面为例,image.png,对于第一个式子来说缺少image.png的影响,它的随机误差就等于image.png的总体随机误差。就是说含有对最终结果有一定规律的项没有提出来。从图上可以看到有非常明显的拟合。

image.png

(2)模型本身的选取有误,比如原本时非线性的,结果使用了线性模型

如下图中左侧的图,可以数据集时绿色框中的,相似度是比较高的,看到红框的时候,拟合是存在问题的。右图是随机误差的图,就有非常明显的规律,遇到这种情况要考虑所作模型的因变量和自变量之间是否可以用线性回归来表示

image.png

(3)其他原因,包括但不限于

样本量过少

测量误差

异常数据

时序分析或使用面版数据等

异方差的检验:

残差图分析:

坐标选择:纵坐标为残差 e,横坐标视情况而定,可选择:x、y 或者观测时间或序号

判断:散点随机散布、无规律则表明满足基本假设,有明显规律或者呈现一定趋势,则有异方差性

图一是0附件,小幅度,无规律波动

图二是表明变量之前并非线性关系

图三是表明因变量的方差值并不相同

图四是蛛网现象,表明因变量自相关

image.png

等级相关系数法:又称斯皮尔曼(Spearman)检验

第一步,做y关于x的普通最小二乘回归,求出image.png的估计值image.png

第二步,取image.png的绝对值|image.png|,把image.png和|image.png|按升序或降序排列,分成等级(序号),image.png和|image.png|分别有一个(序号),其差记为image.png;计算出等级相关系数rs

第三步,做等级相关系数rs;的显著性检验,n>8时,进行t检验。构造t统计量:

如果|t|≤ta/2(n-2),可以认为异方差不存在;反之,可以认为image.png与|image.png|之间存在系统关系,存在异方差问题。

image.png

其他常见的检验方法:

相关图分析:X-Y 散点图,看是否存在明显的扩大、缩小、复杂趋势等

Park 检验与 Gleiser 检验:选择关于x的不同函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式使得方程显著成立,则说明原模型存在异方差性。

Goldfeld-Quandt 检验:以引起异方差的解释变量的大小为顺序,去除中间若干值,生成两个子样本集,对两个样本集j进行回归,计算残差和,构造统计量。样本量要大,对于e,要求满足出同方差外的其他假定,只适用于递增型异方差。

Breusch-Pagan 检验:构造残差 p 平方序列与解释变量之间的辅助函数,得到回归平方和和 ESS,从而判断异方差性存在的显著性。要已知随机误差产生的原因且要求随机误差服从正态分布。

White 检验:与 BP 检验接近,但是无需任何方差的先验知识,是一种更一般的检查方法,无需做任何假定,不需排序,目前应用比较普遍

2.自相关

3.异常值

相关文章
|
安全 算法 编译器
【C++泛型编程 进阶篇】模板返回值的优雅处理(一)
【C++泛型编程 进阶篇】模板返回值的优雅处理
505 0
|
3月前
|
人工智能 运维 监控
AI 视频监控重塑充电站运营效率
基于AI与视频监控的智能管理系统,通过“视觉感知+智能分析+自动响应”闭环。
207 0
AI 视频监控重塑充电站运营效率
|
人工智能 运维 API
Dify 开发者必看:如何破解 MCP 集成与 Prompt 迭代难题?
Dify 是面向 AI 时代的开源大语言模型应用开发平台,GitHub Star 数超 10 万,为 LLMOps 领域增长最快项目之一。然而其在 MCP 协议集成、Prompt 敏捷调整及运维配置管理上存在短板。Nacos 3.0 作为阿里巴巴开源的注册配置中心,升级支持 MCP 动态管理、Prompt 实时变更与 Dify 环境变量托管,显著提升 Dify 应用的灵活性与运维效率。通过 Nacos,Dify 可动态发现 MCP 服务、按需路由调用,实现 Prompt 无感更新和配置白屏化运维,大幅降低 AI 应用开发门槛与复杂度。
841 20
|
前端开发 JavaScript 开发者
CSS进阶-过渡与动画的事件监听
【6月更文挑战第16天】**CSS过渡和动画事件增强交互性,但监听与控制需谨慎。了解`transitionend`用于CSS过渡结束时的响应,避免过度使用JavaScript检测变化。示例代码展示如何绑定`transitionend`事件并在结束后执行操作。对于CSS动画,理解`animationstart`, `animationiteration`, `animationend`事件的生命周期至关重要,确保在动画结束后进行适当的清理。通过这些技巧,优化用户体验并提高代码效率。**
231 5
|
人工智能 自然语言处理 算法
开放式API在AI应用开发中的革命性角色
【7月更文第21天】随着人工智能技术的飞速发展,开放式API(Application Programming Interfaces)正逐渐成为连接技术与创新、加速AI应用开发的关键桥梁。这些API允许开发者轻松访问预先训练好的模型和复杂算法,无需从零开始构建基础架构,从而极大地降低了AI应用的开发门槛,促进了技术民主化。本文将探讨开放式API如何在AI领域引发革命性变化,通过实际案例和代码示例展现其强大功能。
587 2
|
安全 关系型数据库 MySQL
【IIS搭建网站】本地电脑做服务器搭建web站点并公网访问「内网穿透」
【IIS搭建网站】本地电脑做服务器搭建web站点并公网访问「内网穿透」
|
JavaScript IDE 开发工具
你的第一个Vue项目HelloWorld看这一篇就够了
你的第一个Vue项目HelloWorld看这一篇就够了
659 0
|
Ubuntu 关系型数据库 MySQL
expect自动交互脚本:简化你的自动化任务
`expect` 是Linux自动化神器,用于模拟键盘输入与交互式应用自动交互,常用于自动登录服务器、执行命令。安装 `expect`(CentOS: `yum -y install tcl expect`, Ubuntu: `apt-get -y install expect`) 后,编写脚本如SSH登录示例,自动发送密码和命令。通过结合shell命令,`expect` 可实现复杂任务,如获取IP、登录MySQL。支持多服务器管理,根据用户输入选择登录。学习 `expect` 提升自动化效率!
1020 0
|
前端开发 Java 网络安全
nacos常见问题之Nacos获取配置文件时报错如何解决
Nacos是阿里云开源的服务发现和配置管理平台,用于构建动态微服务应用架构;本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答,旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。
基于若依的ruoyi-nbcio流程管理系统增加读取节点扩展属性的方法
基于若依的ruoyi-nbcio流程管理系统增加读取节点扩展属性的方法
237 0