模型评估与调优| 学习笔记

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习模型评估与调优。

开发者学堂课程【机器学习算法 :模型评估与调优】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7224


模型评估与调优

 

内容介绍

一、回归方程假设检验

二、回归系数假设检验

三、拟合优度

四、回顾:分类模型评估和指标

五、自变量筛选

六、其他常见问题

 

一、回归方程假设检验

之前介绍了逻辑回归模型的参数估计,使用了 MLE 的方式估算出参数来。那接下来就得到了一个完整的模型。需要对这个模型进行评估、诊断与调优。首先对回归模型进行假设检验。需要验证一下得到的回归方程它本身的特征是否显著,是否有意义。

回归方程假设检验:

确定假设:我们搜集数据是为了找到不达标的证据,即原假设image.png备择假设image.png:至少有一个 image.png≠0,也就是所有的参数都等于0。

确定检验水平:采取最常用的 α=0.05,或者是更严格的 α=0.01

构造统计量:image.png成立时:计算似然比统计量:G=-2lnL,就是对于对数、似然方程构造计统计量,服从image.png分布,其自由度等于简单模型和复杂模型中的参数个数的差k-l。

比较 p 值和 α 值:计算 G 统计量,符合自由度 k-l 的image.png分布,查临界值表,找到p值。

得到结论:p 值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设image.png不成立,即本次得到的回归系数无显著统计意义,需重新建模。也就是方程虽然算出来了,但方程是没有意义的。

 

二、回归系数假设检验

另外还需要对回归系数进行假设检验。其实和刚才的回归方程的检验是一样的。

回归系数假设检验:Ê

确定假设:我们搜集数据是为了找到不达标的证据,即原假设 image.png备择假设image.png

确定检验水平:采取最常用的 α=005,或者是更严格的 α=0.01β

构造统计量:image.png成立时:计算 Wald 统计量:image.png服从自由度等于1的image.png 分布。

比较 p 值和 α 值:计算 G 统计量,符合自由度为1的 image.png分布,查临界值表,找到p值。

得到结论:p值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 image.png不成立,即本次得到的回归系数image.png无显著统计意义,可考虑剔除模型中的该变量项。

 

三、拟合优度

另外还有一个评估模型优劣度的一个量叫拟合优度。

拟合优度(Goodness of Fit):模型如何有效的描述反应变量及模型匹配观测数据的程度。如果模型的预测值和观测值有较高的一致性,就认为这一模型拟合数据,否则认为模型拟合较差。实际上评估的时候测量的是预测值与实际值之间的差异,评估的是“劣度”,即拟合不佳检验(Lack of Fit Test)。常见的拟合优度指标:

皮尔逊卡方(Pearson image.png):通过比较模型预测结果和实际观测事件发生和不发生的频率检验模型成立的假设。

偏差(Deviance):通过比较模型估计的最大似然值和基准模型(也称饱和模型)的最大似然值,生成D统计量(D=-2*Inimage.png,称作偏差,符合image.png分布。

HL 拟合优度指标(Hosmer-Lemeshow):分成10组做升序排列,适合连续变量的拟合优度评估信息测量指标(Information Measure):AIC、BIC 等,以 AIC 为例,基于熵的信息量指标,其计算公式为:AIC=-2lnL+2(K+S),其中 K 为自变量数,S  为结果类别数减1,AIC 越小越好。

 

四、回顾:分类模型评估和指标

逻辑回归模型主要是做变量。之前也讲过分类模型评估的方法和指标。

常见分类模型评估方法:

混淆矩阵(Confusion Matrix)

通过一个混淆矩阵来看分类模型的结果。

常用评估指标

准确率(Accuracy,正确率)

错误率(Error Rate)

查准率(Precision 精确率,命中率)

查全率(Recall,召回率,灵敏度: Sensitivity)

特异度(Specificity)

F1 分值(image.pngScore,image.pngMeasure)

ROC 曲线(Receiver Operating Characteristic Curve,受试者操作特征曲线)

AUC(Area Under Curve,曲线下面积)

PRC 曲线(Precious-Recall Curve,精度-召回率曲线)

其他:如比较检验、Gain(增益)、Lift(提升)、基尼系数等

 

五、自变量筛选

在做模型的诊断优化时要清楚自变量的选择。因为它的变量是自变量,所以不能直接使用线性回归的方法。但一般选择了 Logistic 函数把分类转化成回归之后就变成一个真正的线性回归了。还可以使用线性回归介绍的知识。

筛选自变量:

连续变量:通过拟合单变量 Logistic 回归模型检验变量的显著性

分类变量:对每个变量按其水平和因变量结果进行交互分析,进行似然比image.png检验通过信息测量指标对整体模型进行比较:

BIC:BIC=-2lnL+2(K+S)*ln(n)

AIC:AIC=-2lnL+2(K+S)

 

六、其他常见问题

多元线性回归分析共有的问题:

多重共线性:产生较大的回归系数估计标准误差,VIF。

使用线性模型拟合非线性数据:更换非线性模型拟合。

异常值或强影响点:杠杆度、Cook 距离等判断

变量选择和变量的意义:有意义的被剔除,无意义的被选中

逻辑回归特有的问题:

过离散:模型中观察到的变异大于名义上的变异,导致回归系数标准误偏低,比如重要变量遗漏、未考虑必要互动项、特异值、非线性等原因会造成该现象。

空单元:交互表中某些观测值为0,造成 odds 趋于 ∞,常见于自变量为分类变量的情况,可以考虑增大样本数。

完全分离:结果可以由某一个变量的一个值决定,大于该值或者小于该值将决定最终结果。无法使用最大似然法,模型失效。通常也是增大样本数。

相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。
25 3
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
|
29天前
|
自然语言处理 前端开发
如何评估一个基于MLM的模型在特定任务上的性能?
如何评估一个基于MLM的模型在特定任务上的性能?
|
1月前
|
机器学习/深度学习 数据采集 算法
优化GraphRAG性能:从数据预处理到模型调优
【10月更文挑战第28天】作为一名深度学习和图神经网络(GNN)的研究者,我在使用GraphRAG(Graph Retrieval-Augmented Generation)模型的过程中积累了丰富的经验。GraphRAG是一种结合了图检索和序列生成的模型,广泛应用于问答系统、推荐系统等领域。然而,尽管GraphRAG具有强大的功能,但在实际应用中仍然存在性能瓶颈。本文将从数据预处理、特征工程、模型选择和超参数调优等方面,探讨如何优化GraphRAG的性能。
72 2
|
2月前
|
机器学习/深度学习 算法
回归模型的评估及超参数调优
回归模型的评估及超参数调优
27 0
|
3月前
|
数据采集 机器学习/深度学习 自然语言处理
一文讲懂大模型调优技术
随着AI技术的发展,大模型如GPT系列、BERT等成为推动自然语言处理和计算机视觉领域进步的重要驱动力。然而,大模型的调优过程复杂且资源消耗巨大,对开发者构成严峻挑战。本文旨在全面解析大模型调优的关键技术,涵盖数据预处理、模型架构调整、超参数优化、正则化与泛化能力提升,以及分布式训练与并行优化等内容,为开发者提供系统性的调优指南。
|
4月前
|
SQL 自然语言处理
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
|
6月前
|
机器学习/深度学习
探索机器学习中的超参数调优策略
在机器学习模型的训练过程中,超参数的选择和调优对模型性能有着至关重要的影响。本文探讨了不同的超参数调优策略,分析了它们的优缺点,并结合实际案例展示了如何有效地选择和调整超参数以提升模型的准确性和泛化能力。
121 1
|
7月前
|
缓存 人工智能 数据可视化
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
|
7月前
|
机器学习/深度学习 算法 数据挖掘
如何评估模型性能以进行模型选择?
【5月更文挑战第4天】如何评估模型性能以进行模型选择?
148 5
|
7月前
|
自然语言处理 测试技术
【大模型】描述一些评估 LLM 性能的技术
【5月更文挑战第5天】【大模型】描述一些评估 LLM 性能的技术

热门文章

最新文章