数据分享|SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林

2024-04-28 133

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分享|SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林

在贷款违约预测的数据（查看文末了解数据免费获取方式）的基础上，探索是否能通过借贷者的数据判断其违约风险，从而帮助商业银行提前做好应对。

解决方案

任务/目标

根据借款者的个人信息和贷款的属性，运用SAS EM软件，使用多种模型进行分析。

数据源准备

因获取数据的能力有限，并为了保证数据量足够巨大且数据质量较高，我们选择了贷款违约预测的数据。整个数据集为有800,000条数据，每条数据除了ID、是否违约isDefault该目标值，还包括loanAmnt、term等 29个变量，变量的具体情况在数据探索中进行描述。

特征转换

为了进一步探究issueDate和earliesCreditLine这两个时间ID的时间久远性是否会对我们的预测产生影响，另外增加了两个变量，分别是interval_issueDate和Interval_earliesCreditLine,都是用2020减去issueDate和earliesCreditLine的年份得到的。对缺失数据进行补缺，修改年份变量为区间型变量并对其进行分箱处理，对偏正态分布的变量进行对数处理，拒绝单值型变量。

划分训练集和测试集

划分数据集的50%为训练集，50%为验证集。

建模

使用逐步Logistic回归

回归结果显示，贷款违约风险与年收入负相关，与债务收入比正相关，与利率正相关，与贷款金额正相关；对于分类变量，贷款年限3年的贷款违约风险显著小于贷款5年，2013-2015年的贷款违约风险显著大于2015-2017年等等。

决策树

使用二分支和三分支决策树进行分析，结果显示影响贷款违约的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。

随机森林

调参后设置最大树个数为100，最大深度为50，显著性水平为0.05，结果显示训练误分类率为0.1964，验证误分类率为0.1974，根据Gini缩减，对分类准确度影响较大的变量为grade、interestRate、term、dti、ficoRangeHigh等。

模型比较

通过比较发现，Logistic回归具有最小的验证误分类率，为0.1965，其次是三分支决策树和随机森林，最差的为二分支决策树。

点击标题查阅往期内容

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

在累积提升度和ROC曲线上，Logistic回归和随机森林表现相近，二分支决策树和三分支决策树表现相近，但是Logistic回归和随机森林模型表现明显优于两个决策树模型。

逐步回归模型的验证误分类率低于决策树1、决策树2和随机森林模型，这表明在这四个模型中，逐步回归模型相比其他模型对于新样本具有更强的泛化能力，在对新样本违约概率的预测上更加准确。

根据结果，就数值型变量而言，违约风险与借款人的债务收入比dti、循环额度利用率revolUtil、贷款利率interestRate、贷款金额loanAmnt、借款人信用档案中未结信用额度的数量openAcc显著正相关；与就业职称employmentTitle、年收入annualIncome、借款人在贷款发放时的FICO所属的下限范围ficoRangeLow、分期付款金额installment、信贷周转余额合计revolBal、借款人信用档案中当前的信用额度总数totalAcc显著负相关。

对于贷款发放年份issueDate，相较于2017年6月之后发放的贷款，2013年6月之前发放的贷款违约风险显著更大，贷款发放年份在2013.6-2015.6年的违约风险稍低，在2015.6-2017.6年的贷款则显著更小。

申请类型applicationType为0时，其违约风险显著小于其值为1时。

相对于贷款等级G，贷款等级为A、B、C时，其违约风险显著更大，贷款等级为D、E、F时，违约风险则显著更小。

相对于房屋所有权状况homeOwnership为5时，homeOwnership为1时，违约风险显著更小，homeOwnership为0,2,3时，违约风险减小，但其结果在统计学上不显著；homeOwnership为4时，违约风险升高，但在统计学上仍然不显著。

贷款用途purpose为0,4,5,8,12时，违约风险显著大于用途为13，用途为1,7,9时，违约风险显著更小，用途为2,3,6,10,11时，其违约风险相对于13没有统计学意义。

贷款期限term为3年时，其违约风险显著小于贷款期限为5年。

验证状态verificationStatus为0时，相对于其值为2时违约风险显著更大。其值为1时则相对于2违约风险显著更小。

因此，建议贷款发放机构在评估借款人的违约风险时，重点关注借款人的负债收入比、就业职称、年收入、房屋所有权状况等个人信息，并分析借款人的借款行为，包括其申请贷款的金额、利率、分期付款金额、用途、申请类型、贷款等级、贷款期限、验证状态，调查借款人的历史借款记录，包括循环额度利用率、借款人信用档案中未结信用额度的数量、贷款发放时的FICO所属的下限范围、信贷周转余额合计、信用档案中当前的信用额度总数。

数据分享|SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林

解决方案

任务/目标

数据源准备

特征转换

划分训练集和测试集

建模

使用逐步Logistic回归

决策树

随机森林

模型比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

数据分享|SAS数据挖掘EM贷款违约预测分析：逐步Logistic逻辑回归、决策树、随机森林

解决方案

任务/目标

数据源准备

特征转换

划分训练集和测试集

建模

使用逐步Logistic回归

决策树

随机森林

模型比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景