自变量选择1| 学习笔记

简介: 快速学习自变量选择1。

开发者学堂课程【机器学习算法 :自变量选择1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7210


自变量选择1

 

内容介绍

一、自变量选择的影响

二、自变量选择的准则

     

一、 自变量选择的影响

如果一个因变量共受到 m 个因素的影响,建模时选取了所有的因素,则为全模型;若只选了其中 p 个因素建模,则称为选模型。

全模型:y=β01X11X1+···+βmXm

选模型:y=β0p1pX1p2pX2p+···+βppXppp

其参数估值为:

全模型  image.png

选模型

 image.png 

自变量选择的影响包括:

(1) 当未选入的因素的参数不全为零时,选模型的回归系数为有偏估计

(2) 选模型的预测结果是有偏预测

(3) 选模型的参数估计有较小的方差

(4) 选模型的预测残差有较小的方差

(5) 选模型预测的均方误差比全模型的小

 

二、 自变量选择的准则

需要评价回归模型最优的准则,来判断那选模型性能最好。

(1) 残差平方和 SSE 越小、决定系 R2 越大越好;并非如此,增加自变量个数回答道上述效果,但是考虑到多重共线性、变量测量误差累积、参数数目增加等因素,未必会好

(2) 自由度调整复决定系数达到最大;自变量增多,决定系数增大,但是残差自由度减小(残差自由度等于样本个数减掉变量个数)。自由度减小意味着可靠性低,即区间预测的幅度变大,无实际应用意义。采用调整复决定系数:

image.png

其中 image.png 表示自变量个数增加,不考虑系数;该项变小,整体值变大。image.png 表示自变量个数增加,只考虑系数;该项变大,整体值变小。image.png 综合考虑,增加自变量时,支队回归的贡献达到一定程度,才会选入。

回归误差项方差的无偏估计:image.png        image.png

自变量个数从0开始增加,此时 SSE 变小,image.png 开始增加,SSE 的减少速度更快,整体 image.png 开始逐渐减小;自变量增加到一定程度(比如重要变量都已加入),SSE 减少变慢且趋于稳定,此时image.png开始逐渐增大。

(3)残差平方和 SSE 越小,决定系数 image.png 越大越好:并非如此

(4)自由度调整服决定系数达到最大:image.png

(5)赤池信息量(Akaike Information Crterion)达到最小;基于最大似然估计原理的模型选择准则image.png

其中image.png为模型似然函数,维数(未知参数)为 p,n 为样本个数。

在回归建模过程,对每一个模型计算AIC,其中该值最小的模型,就是最优回归模型。

(6) 统计量 image.png 达到最小:

image.png

相关文章
|
IDE Java 关系型数据库
深度了解Maven
一.Maven介绍与功能 二.依赖管理 1.依赖的配置 2.依赖的传递性 3.排除依赖 4.依赖的作用范围 5.依赖的生命周期
1333 1
|
设计模式 编解码 C++
【ffmpeg 视频播放】深入探索:ffmpeg视频播放优化策略与设计模式的实践应用(一)
【ffmpeg 视频播放】深入探索:ffmpeg视频播放优化策略与设计模式的实践应用
461 0
|
存储 SQL 算法
Mysql进阶索引篇02——InnoDB存储引擎的数据存储结构(一)
前面我们已经剖析了mysql中InnoDB与MyISAM索引的数据结构,了解了B+树的设计思想、原理,并且介绍了B+树与Hash结构、平衡二叉树、AVL树、B树等的区别和实际应用场景。 页和页之间并不一定在物理上相连,只是在逻辑上使用双向链表关联。指针、记录究竟是如何存储的呢?其实这就需要联系我们之前提到的行格式了。数据查找在页目录中二分法快速定位到槽,上面的过程都与页的内部结构相关,本文将详细的阐述。
Mysql进阶索引篇02——InnoDB存储引擎的数据存储结构(一)
|
10月前
|
安全 Unix 虚拟化
Windows 7 & Windows Server 2008 R2 简体中文版下载 (2025 年 2 月更新)
Windows 7 & Windows Server 2008 R2 简体中文版下载 (2025 年 2 月更新)
393 11
Windows 7 & Windows Server 2008 R2 简体中文版下载 (2025 年 2 月更新)
|
运维 监控 NoSQL
Redis Sentinel哨兵模式部署
Redis Sentinel哨兵模式部署
412 2
|
Java 数据库连接 数据库
告别繁琐 SQL!Hibernate 入门指南带你轻松玩转 ORM,解锁高效数据库操作新姿势
【8月更文挑战第31天】Hibernate 是一款流行的 Java 持久层框架,简化了对象关系映射(ORM)过程,使开发者能以面向对象的方式进行数据持久化操作而无需直接编写 SQL 语句。本文提供 Hibernate 入门指南,介绍核心概念及示例代码,涵盖依赖引入、配置文件设置、实体类定义、工具类构建及基本 CRUD 操作。通过学习,你将掌握使用 Hibernate 简化数据持久化的技巧,为实际项目应用打下基础。
956 0
|
消息中间件 存储 JavaScript
构建一个基于Node.js的实时数据流处理系统
【5月更文挑战第30天】使用Node.js构建实时数据流处理系统,结合WebSocket实现双向通信,Kafka作为消息队列,Redis做数据存储和缓存,D3.js用于数据可视化。系统包括数据源、传输、处理、存储和可视化五个关键部分,适合高并发、低延迟的实时监控与分析需求。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能浪潮下的自然语言处理技术演进
本文从自然语言处理(NLP)技术的历史发展出发,深入剖析了在人工智能(AI)大潮中该领域的创新突破。我们将探讨深度学习如何推动语言模型的革新、多语言处理技术的发展,以及机器翻译和语音识别的最新进展。文章还将讨论这些技术进步如何影响社会,并展望未来NLP技术的潜力与挑战。
480 0