开发者社区> 问答> 正文

通过不断的迭代以提升特征的精准度与全面度,具体的核心有哪些提取过程?

通过不断的迭代以提升特征的精准度与全面度,具体的核心有哪些提取过程?

展开
收起
游客hmzk6xi5mlygs 2022-05-12 14:55:55 405 0
1 条回答
写回答
取消 提交回答
  • 1、特征扩充:元数据中的字段有可能为原始数据,这部分需要关联到具体数据表并找出有意义的字段。

    2、特征分类:根据数据的聚合,对于有意义的离散类型数据,比如订单总价,往往我们希望得到零价订单,高值订单及普通订单三类,这三类是未自动打标的,需要我们聚合出范围在特征提取过程中动态识别并分类。

    3、特征聚合:依赖于特征的规则,进行所有字段的聚合,最终根据枚举类型字段出现次数进行有效判断,目前我们设定的值为20,这个值可以动态调整,仅仅为参考值而已。

    4、特征决策:针对聚合出来的潜在特征,进行基于代码、经验、默认值等多种维度的判断,最终进行特征的推荐,这部分因为业务属性比较重,我们在推荐出来的同时,最终更依赖于专家经验进行字段的最终判断,目前推荐出来和最终采纳的比例约为50%,我们后续会升级算法和参考维度进一步提升采纳率。

    2022-05-12 17:22:36
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
图计算优化技术探索 立即下载
基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
基于Spark的面向十亿级别特征的大规模机器学习 立即下载