开发者学堂课程【机器学习算法 :模型评估与调优】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7224
模型评估与调优
内容介绍
一、回归方程假设检验
二、回归系数假设检验
三、拟合优度
四、回顾:分类模型评估和指标
五、自变量筛选
六、其他常见问题
一、回归方程假设检验
之前介绍了逻辑回归模型的参数估计,使用了 MLE 的方式估算出参数来。那接下来就得到了一个完整的模型。需要对这个模型进行评估、诊断与调优。首先对回归模型进行假设检验。需要验证一下得到的回归方程它本身的特征是否显著,是否有意义。
回归方程假设检验:
确定假设:我们搜集数据是为了找到不达标的证据,即原假设备择假设:至少有一个 ≠0,也就是所有的参数都等于0。
确定检验水平:采取最常用的 α=0.05,或者是更严格的 α=0.01
构造统计量:成立时:计算似然比统计量:G=-2lnL,就是对于对数、似然方程构造计统计量,服从分布,其自由度等于简单模型和复杂模型中的参数个数的差k-l。
比较 p 值和 α 值:计算 G 统计量,符合自由度 k-l 的分布,查临界值表,找到p值。
得到结论:p 值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设不成立,即本次得到的回归系数无显著统计意义,需重新建模。也就是方程虽然算出来了,但方程是没有意义的。
二、回归系数假设检验
另外还需要对回归系数进行假设检验。其实和刚才的回归方程的检验是一样的。
回归系数假设检验:Ê
确定假设:我们搜集数据是为了找到不达标的证据,即原假设 ,备择假设。
确定检验水平:采取最常用的 α=005,或者是更严格的 α=0.01β
构造统计量:成立时:计算 Wald 统计量:服从自由度等于1的 分布。
比较 p 值和 α 值:计算 G 统计量,符合自由度为1的 分布,查临界值表,找到p值。
得到结论:p值若大于 α 值,不能拒绝原假设。即通过本次采样得到的样本数据,并不能证明原假设 不成立,即本次得到的回归系数无显著统计意义,可考虑剔除模型中的该变量项。
三、拟合优度
另外还有一个评估模型优劣度的一个量叫拟合优度。
拟合优度(Goodness of Fit):模型如何有效的描述反应变量及模型匹配观测数据的程度。如果模型的预测值和观测值有较高的一致性,就认为这一模型拟合数据,否则认为模型拟合较差。实际上评估的时候测量的是预测值与实际值之间的差异,评估的是“劣度”,即拟合不佳检验(Lack of Fit Test)。常见的拟合优度指标:
皮尔逊卡方(Pearson ):通过比较模型预测结果和实际观测事件发生和不发生的频率检验模型成立的假设。
偏差(Deviance):通过比较模型估计的最大似然值和基准模型(也称饱和模型)的最大似然值,生成D统计量(D=-2*In,称作偏差,符合分布。
HL 拟合优度指标(Hosmer-Lemeshow):分成10组做升序排列,适合连续变量的拟合优度评估信息测量指标(Information Measure):AIC、BIC 等,以 AIC 为例,基于熵的信息量指标,其计算公式为:AIC=-2lnL+2(K+S),其中 K 为自变量数,S 为结果类别数减1,AIC 越小越好。
四、回顾:分类模型评估和指标
逻辑回归模型主要是做变量。之前也讲过分类模型评估的方法和指标。
常见分类模型评估方法:
混淆矩阵(Confusion Matrix)
通过一个混淆矩阵来看分类模型的结果。
常用评估指标
准确率(Accuracy,正确率)
错误率(Error Rate)
查准率(Precision 精确率,命中率)
查全率(Recall,召回率,灵敏度: Sensitivity)
特异度(Specificity)
F1 分值(Score,Measure)
ROC 曲线(Receiver Operating Characteristic Curve,受试者操作特征曲线)
AUC(Area Under Curve,曲线下面积)
PRC 曲线(Precious-Recall Curve,精度-召回率曲线)
其他:如比较检验、Gain(增益)、Lift(提升)、基尼系数等
五、自变量筛选
在做模型的诊断优化时要清楚自变量的选择。因为它的变量是自变量,所以不能直接使用线性回归的方法。但一般选择了 Logistic 函数把分类转化成回归之后就变成一个真正的线性回归了。还可以使用线性回归介绍的知识。
筛选自变量:
连续变量:通过拟合单变量 Logistic 回归模型检验变量的显著性
分类变量:对每个变量按其水平和因变量结果进行交互分析,进行似然比检验通过信息测量指标对整体模型进行比较:
BIC:BIC=-2lnL+2(K+S)*ln(n)
AIC:AIC=-2lnL+2(K+S)
六、其他常见问题
多元线性回归分析共有的问题:
多重共线性:产生较大的回归系数估计标准误差,VIF。
使用线性模型拟合非线性数据:更换非线性模型拟合。
异常值或强影响点:杠杆度、Cook 距离等判断
变量选择和变量的意义:有意义的被剔除,无意义的被选中
逻辑回归特有的问题:
过离散:模型中观察到的变异大于名义上的变异,导致回归系数标准误偏低,比如重要变量遗漏、未考虑必要互动项、特异值、非线性等原因会造成该现象。
空单元:交互表中某些观测值为0,造成 odds 趋于 ∞,常见于自变量为分类变量的情况,可以考虑增大样本数。
完全分离:结果可以由某一个变量的一个值决定,大于该值或者小于该值将决定最终结果。无法使用最大似然法,模型失效。通常也是增大样本数。