模型评估与调优| 学习笔记

简介: 快速学习模型评估与调优。

开发者学堂课程【机器学习算法 :模型评估与调优】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7224


模型评估与调优

 

内容介绍

一、回归方程假设检验

二、回归系数假设检验

三、拟合优度

四、回顾:分类模型评估和指标

五、自变量筛选

六、其他常见问题

 

一、回归方程假设检验

之前介绍了逻辑回归模型的参数估计,使用了 MLE 的方式估算出参数来。那接下来就得到了一个完整的模型。需要对这个模型进行评估、诊断与调优。首先对回归模型进行假设检验。需要验证一下得到的回归方程它本身的特征是否显著,是否有意义。

回归方程假设检验:

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png备择假设image.png:至少有一个 image.png≠0,也就是所有的参数都等于0。

确定检验水平:采取最常用的 α=0.05,或者是更严格的 α=0.01

构造统计量:image.png成立时:计算似然比统计量:G=-2lnL,就是对于对数、似然方程构造计统计量,服从image.png分布,其自由度等于简单模型和复杂模型中的参数个数的差k-l。

比较 p 值和 α 值:计算 G 统计量,符合自由度 k-l 的image.png分布,查临界值表,找到p值。

得到结论:p 值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设image.png不成立,即本次得到的回归系数无显著统计意义,需重新建模。也就是方程虽然算出来了,但方程是没有意义的。

 

二、回归系数假设检验

另外还需要对回归系数进行假设检验。其实和刚才的回归方程的检验是一样的。

回归系数假设检验:Ê

确定假设:我们搜集数据是为了找到不达标的证据,即原假设 image.png备择假设image.png

确定检验水平:采取最常用的 α=005,或者是更严格的 α=0.01β

构造统计量:image.png成立时:计算 Wald 统计量:image.png服从自由度等于1的image.png 分布。

比较 p 值和 α 值:计算 G 统计量,符合自由度为1的 image.png分布,查临界值表,找到p值。

得到结论:p值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 image.png不成立,即本次得到的回归系数image.png无显著统计意义,可考虑剔除模型中的该变量项。

 

三、拟合优度

另外还有一个评估模型优劣度的一个量叫拟合优度。

拟合优度(Goodness of Fit):模型如何有效的描述反应变量及模型匹配观测数据的程度。如果模型的预测值和观测值有较高的一致性,就认为这一模型拟合数据,否则认为模型拟合较差。实际上评估的时候测量的是预测值与实际值之间的差异,评估的是“劣度”,即拟合不佳检验(Lack of Fit Test)。常见的拟合优度指标:

皮尔逊卡方(Pearson image.png):通过比较模型预测结果和实际观测事件发生和不发生的频率检验模型成立的假设。

偏差(Deviance):通过比较模型估计的最大似然值和基准模型(也称饱和模型)的最大似然值,生成D统计量(D=-2*Inimage.png,称作偏差,符合image.png分布。

HL 拟合优度指标(Hosmer-Lemeshow):分成10组做升序排列,适合连续变量的拟合优度评估信息测量指标(Information Measure):AIC、BIC 等,以 AIC 为例,基于熵的信息量指标,其计算公式为:AIC=-2lnL+2(K+S),其中 K 为自变量数,S  为结果类别数减1,AIC 越小越好。

 

四、回顾:分类模型评估和指标

逻辑回归模型主要是做变量。之前也讲过分类模型评估的方法和指标。

常见分类模型评估方法:

混淆矩阵(Confusion Matrix)

通过一个混淆矩阵来看分类模型的结果。

常用评估指标

准确率(Accuracy,正确率)

错误率(Error Rate)

查准率(Precision 精确率,命中率)

查全率(Recall,召回率,灵敏度: Sensitivity)

特异度(Specificity)

F1 分值(image.pngScore,image.pngMeasure)

ROC 曲线(Receiver Operating Characteristic Curve,受试者操作特征曲线)

AUC(Area Under Curve,曲线下面积)

PRC 曲线(Precious-Recall Curve,精度-召回率曲线)

其他:如比较检验、Gain(增益)、Lift(提升)、基尼系数等

 

五、自变量筛选

在做模型的诊断优化时要清楚自变量的选择。因为它的变量是自变量,所以不能直接使用线性回归的方法。但一般选择了 Logistic 函数把分类转化成回归之后就变成一个真正的线性回归了。还可以使用线性回归介绍的知识。

筛选自变量:

连续变量:通过拟合单变量 Logistic 回归模型检验变量的显著性

分类变量:对每个变量按其水平和因变量结果进行交互分析,进行似然比image.png检验通过信息测量指标对整体模型进行比较:

BIC:BIC=-2lnL+2(K+S)*ln(n)

AIC:AIC=-2lnL+2(K+S)

 

六、其他常见问题

多元线性回归分析共有的问题:

多重共线性:产生较大的回归系数估计标准误差,VIF。

使用线性模型拟合非线性数据:更换非线性模型拟合。

异常值或强影响点:杠杆度、Cook 距离等判断

变量选择和变量的意义:有意义的被剔除,无意义的被选中

逻辑回归特有的问题:

过离散:模型中观察到的变异大于名义上的变异,导致回归系数标准误偏低,比如重要变量遗漏、未考虑必要互动项、特异值、非线性等原因会造成该现象。

空单元:交互表中某些观测值为0,造成 odds 趋于 ∞,常见于自变量为分类变量的情况,可以考虑增大样本数。

完全分离:结果可以由某一个变量的一个值决定,大于该值或者小于该值将决定最终结果。无法使用最大似然法,模型失效。通常也是增大样本数。

相关文章
|
数据安全/隐私保护 Docker 容器
minio
minio
707 0
|
SQL 数据库 OceanBase
OceanBase数据库的主备库参照的配置文件
【2月更文挑战第27天】OceanBase数据库的主备库参照的配置文件
320 4
|
编译器 开发工具 C语言
交叉编译器环境配置与boa嵌入式web服务器移植问题
交叉编译器环境配置与boa嵌入式web服务器移植问题
399 0
|
22天前
|
人工智能 自然语言处理 算法
数字人定制平台哪个好?亲测5款后我选了它
# 数字人定制平台哪个好?亲测5款后我选了它 据艾瑞咨询2025年数据显示,中国数字人市场规模已突破200亿元,年增长率达47%。越来越多企业开始尝试用AI数字人提升客服效率、直播转化或品牌IP化。
数字人定制平台哪个好?亲测5款后我选了它
|
数据采集 机器学习/深度学习 自然语言处理
一文讲懂大模型调优技术
随着AI技术的发展,大模型如GPT系列、BERT等成为推动自然语言处理和计算机视觉领域进步的重要驱动力。然而,大模型的调优过程复杂且资源消耗巨大,对开发者构成严峻挑战。本文旨在全面解析大模型调优的关键技术,涵盖数据预处理、模型架构调整、超参数优化、正则化与泛化能力提升,以及分布式训练与并行优化等内容,为开发者提供系统性的调优指南。
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
560 7
|
SQL 关系型数据库 MySQL
使用SQL语句创建数据库:一步步指南
使用SQL语句创建数据库:一步步指南
639 0
|
人工智能 固态存储 调度
【Paper Reading】结合 NanoFlow 研究,优化大语言模型服务效率的探索
本文将深入探讨 NanoFlow 的关键思路和核心技术,分析 NanoFlow 与 阿里云人工智能平台 PAI 在实际工作中应用的潜力。
|
存储 关系型数据库 MySQL
|
SQL NoSQL Java
如何在Java项目中实现分布式锁
如何在Java项目中实现分布式锁