违背基本假设-3| 学习笔记

简介: 快速学习违背基本假设-3。

开发者学堂课程【机器学习算法 :违背基本假设-3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7206


违背基本假设-3

 

内容简介

一、 自相关

二、 自相关常见成因

三、 自相关的检验

 

一、 自相关

上一章详细介绍了违背基本假设的情况异方差怎样造成的、如何识别、如何减少影响。这一节介绍自相关。

image.png

回归模型中的自相关( Heteroscedasticity )是指随机误差项的协方差 cov(en,)*0.即变量前后数值之间存在相关关系。协方差就是有两个变量,a 变大的时候b变大,或者是 b 变小,变量存在变化就是由相关性时协方差不等于0;协方差等于0时,无论哪一个怎么变,都不对另一个产生影响。自相关就是变量的前面和后面有关,后面会讲到一阶自相关、二阶自相关,一阶就是后边的值之和前面的一项值相关关系,二阶就是和前面两个值有相关关系。

由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:

对使用最小二乘法(OLS)求解参数时,参数估计值虽然无偏,但是 OLS 估计量的方差不是最小的,(之前讲的偏差时与真实值是否一致,举例就是射中的值与预测的值命中就是无偏,没中就是有偏。方差是基本每一个值都在附近,波动范围比较小。最佳状态就是方差比较小)估计量不是最优线性无偏估计量(BLUE:Best Linear Unbiased Estimator 在所有线性、无偏的估计量中,有最小方差的估值)

OLS 估计量的方差是有偏的。用来计算方差和 OLS 估计量标准误的公式会严重低估真实的方差和标准误,从而导致t统计量的值变大,使某个系数显著不为0,实际上相反

显著性检验失效,包括t检验和F检验

存在序列相关时,最小二乘估计量对抽样波动非常敏感

回归方程的应用效果不理想,会带来较大的方差甚至错误

 

二、自相关常见成因

造成异方差的常见原因:

模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性。例如xn在建模的时候会有时间性,它的值就会放在随机误差中。对于随机误差讲就提现了 xn 的特点,就导致随机误差项自相关。

错误的回归函数形式

蛛网现象( CobwebPhenomenon ):来源于微观经济学,原意是表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,呈蛛网状收敛或发散与供需的均衡点。一般是指一个变量

对另一个变量的反应是不同步的,迟滞一定时间:image.png

对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换

image.png

 

三、自相关的检验

图示检验法:

绘制 er,er-1 的散点图,如果大部分点落在第二、四象限,则表明随机扰动项目存在负相关,如果大部分落在第一、三象限,则表明存在正相关

按时间顺序绘制回归残差项 et 的图形,如果随着t的变化,有规律的呈现锯齿形或循环性状的变化,表明存在序列相关

自相关系数法:

根据 (真正计算时取其估计值 e)计算自相关系数,其取值范围为[-1,1],接近1时表示误差序列存在正相关,接近-1时表示存在负相关

公式如下:

image.png

象限是在坐标轴中,从 x、y 的正半轴为第一象限,逆时针依次是第二、三、四象限。画一条过原点的直线,斜率为正,就是经过一三象限,用这种方式来判断。还有一个是在绘制一个回归参数在时间中变化图像,若t循环性的变化,那么就是相关的,另一个就是时间上的图看上去直观,若自相关明显,肉眼就可以看出来;不明显判断就是有一定的困难。就是可以用相关系数法来进行判断

DW(Durbin-Watson)检验法:适用于小样本,只能检验随机扰动项具有一阶自回归形式的序列相关问题

随机扰动项的一阶自回归形式为:image.png,若image.png,则前一个值与后一个相等。

构造原假设为:H0:image.png

构造 DW 统计量:公式如下图中所示

直 DW 表,得到 DL,DU

再之后可以根据这两个值按下表内容进行一个判断是否存在自相关性。

image.png

实际上由这几个值把空间分为了几个区域,0~DL 是正相关,4-DL~4 是负相关,中间的 DU~4-DU 是无自相关的。

DW 检验法的缺点:

存在两个不能确定的区域,一旦取值在该区域内,无法判断,需要借助其他方法

只能用于随机扰动项的一阶序列相关的情形,对于高阶不适用,限制了适用范围

上下界要求 n>15,否则样本数过小,无法利用残差对自相关性的存在做出合理诊断

image.png

相关文章
|
存储 持续交付 Docker
Docker 镜像解密:分层存储与构建原理多角度解析
Docker 镜像解密:分层存储与构建原理多角度解析
483 0
|
17天前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS收费价格:最新MySQL、SQL Server、PostgreSQL和MariaDB收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL和MariaDB,多种引擎任选。基础版优惠价低至88元/年,如MySQL倚天版1核2G仅需88元,SQL Server 2核4G 299元/年,PostgreSQL 2核4G 227元/年,高性价比,弹性可扩展,安全稳定,详情可查官方活动页面。
159 1
什么是阻抗匹配?如何在设计中使用阻抗匹配变压器
如果你是一名 RF 设计工程师或任何使用过无线电的人,那么“阻抗匹配”一词应该不止一次让你印象深刻。该术语至关重要,因为它直接影响传输功率,从而影响我们无线电模块的范围。本文旨在帮助您从基础了解什么是阻抗匹配,并帮助您使用最常用的阻抗匹配变压器设计自己的阻抗匹配电路。所以,一起来了解下吧。
5910 1
什么是阻抗匹配?如何在设计中使用阻抗匹配变压器
|
3月前
|
监控 安全 Linux
Linux系统提权之计划任务(Cron Jobs)提权
在Linux系统中,计划任务(Cron Jobs)常用于定时执行脚本或命令。若配置不当,攻击者可利用其提权至root权限。常见漏洞包括可写的Cron脚本、目录、通配符注入及PATH变量劫持。攻击者通过修改脚本、创建恶意任务或注入命令实现提权。系统管理员应遵循最小权限原则、使用绝对路径、避免通配符、设置安全PATH并定期审计,以防范此类攻击。
1058 1
|
9月前
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
520 9
|
SQL 关系型数据库 MySQL
一文带你了解MySQL的DDL语句
一文带你了解MySQL的DDL语句
967 1
|
运维 网络协议
IP地址与子网划分:IPv4与IPv6地址规划及子网掩码计算详解
IP地址与子网划分:IPv4与IPv6地址规划及子网掩码计算详解
5006 3
|
机器学习/深度学习 人工智能 数据可视化
|
自然语言处理 前端开发 数据可视化
1024程序员节:合合信息“百宝箱”开启智能文档处理新纪元
在数字化转型这股大洪流中,文档处理已然成为企业和开发者日常作业中的一块重要基石。合合信息给开发者送了个大礼——智能文档处理“百宝箱”。这“百宝箱”里头,啥都有,全面、高效、准确,简直就是文档处理的超级神器。他们想通过这个产品,让技术不再那么高不可攀,让更多人,特别是咱们开发者,能轻轻松松地把文档处理的能力加到自己的工作中去。下面来详细看一下吧~
323 0
CTK框架 - 第一个插件
前面我们已经介绍了CTK框架的基本信息,接下来我们来一步一步搭建CTK的第一个插件。
386 0