基于单一特征离散化后的组合。这种方式下先将连续型特征离散化,然后基于离散化后的特征组合成新的特征。常见的RFM模型就是其中一种,这种方式先将R、F、M分别离散化,然后做加权或直接组合,生成新的RFM等分。
基于单一特征的运算后的组合。这种方式下,对单一列基于不同条件下获得的数据记录做求和、均值、最大值、最小值、中位数、分位数、标准差、偏度、峰度等计算,从而获得新的特征。
基于多个特征的运算后的组合。这种方式下,将对多个单一特征直接做复合计算,而计算一般都是基于数值型特征的,常见方式包括加、减、乘、除、取余、对数、正弦、余弦等操作,从而形成新的特征。
基于模型的特征最优组合。这种方式下,特征间的组合将不再是简单的数学运算,而是基于输入特征与目标变量,在特定的优化函数的前提下做模型迭代计算,以达到满足模型最优的解。常见的方式包括:基于多项式的特征组合、基于GBDT的特征组合、基于基因工程的特征组合。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。