可以用于形成特征矩阵的共有5个表:
1.用户基本属性表
2.银行流水记录表
3.用户浏览行为表
4.信用卡账单记录表
5.放款时间信息表
1.用户基本属性表
字段 | 注释 | |
---|---|---|
1 | 用户id | 整数 |
2 | 性别 | 枚举值(0表示性别未知) |
3 | 职业 | 枚举值 |
4 | 教育程度 | 枚举值 |
5 | 婚姻状况 | 枚举值 |
6 | 户口类型 | 枚举值 |
1.职业做One-Hot编码
2.教育程度做One-Hot编码
3.婚姻状况做One-Hot编码
4.户口类型做One-Hot编码
2.银行流水记录表
字段 | 注释 | |
---|---|---|
1 | 用户id | 整型 |
2 | 时间戳 | 整型(0表示未知) |
3 | 交易类型 | 枚举值(1表示收入,0表示支出) |
4 | 交易金额 | 浮点型 |
5 | 工资收入标记 | 枚举值(1表示工资收入) |
1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.工资收入标记做One-Hot编码
5.交易类型与交易金额做正负数值交易金额字段
3.用户浏览行为表
字段 | 注释 | |
---|---|---|
1 | 用户id | 整型 |
2 | 时间戳 | 整数(0表示未知) |
3 | 浏览行为数据 | 整型 |
4 | 浏览子行为编号 | 枚举型 |
1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.浏览子行为做One-Hot编码
5.浏览子行为做统计计数
4.信用卡账单记录表
字段 | 注释 | |
---|---|---|
1 | 用户id | 整型 |
2 | 账单时间戳 | 整数(0表示未知) |
3 | 银行id | 枚举型 |
4 | 上期账单金额 | 浮点型 |
5 | 上期还款金额 | 浮点型 |
6 | 信用卡额度 | 浮点型 |
7 | 本期账单余额 | 浮点型 |
8 | 本期账单最低还款额 | 浮点型 |
9 | 消费笔数 | 整数 |
10 | 本期账单金额 | 浮点型 |
11 | 调整金额 | 浮点型 |
12 | 循环利息 | 浮点型 |
13 | 可用金额 | 浮点型 |
14 | 预借现金额度 | 浮点型 |
15 | 还款状态 | 枚举值 |
1.账单时间戳按星期分箱
2.账单时间戳按月分箱
3.账单时间戳是否工作日
4.银行id做One-Hot编码
5.信用卡额度是否低于某个值
6.上期还款金额是否低于某个值
7.上期账单金额是否高于某个值
8.本期账单余额是否高于某个值
9.本期最低还款额是否高于某个值
10.消费笔数是否高于某个值
11.本期账单金额是否高于某个值
12.循环利息是否高于某个值
13.可用金额是否高于某个值
14.预借现金额度是否高于某个值
15.还款状态做One-Hot编码
16.信用卡计数
17.每个用户在不同银行的每张信用卡信用额度的聚合计算,包括最大值、最小值、均值和标准差。
5.放款时间表
字段 | 注释 | |
---|---|---|
1 | 用户id | 整型 |
2 | 放款时间 | 整数 |
1 放款时间按星期分箱
2 放款时间按月分箱
3 放款时间是否工作日
4.放款时间期间是否有银行账单或者信用账单突变
6.总结
特征工程中的大部分特征可以分为2类:
1.基于时间窗口对连续变量做统计特征,这是特征工程中常用的方法,尤其是对于一个用户对应多条记录的数据表。第一,通过这些统计特征可以提取出用户在某个变量上大致的分布情况;第二,这为特征工程带来大量细分化且包含信息量大的特诊。
2.每个用户在特殊时间点的具体特征值,这些时间点包括最初、最终以及贷款前后,这些时间点所包含的信息量比一般时间点要大,与预测目标值的关联程度也更大。