开发者社区> 问答> 正文

单特征变量的分组

已解决

假设有两列数据:某个统计值、id。
某个统计值是某个特征的统计值,经过归一化之后是[0-1]之间的归一值,再通过归一值乘以N后取整得到归一分数,按这个分数再group 得到每个归一分数下的id个数。
那现在想要对这个特征进行分组定级别,倒序去求分组集合,要求是最少一个分组里的id个数不能少于总id数的1%,这个逻辑自己推算的话数据量不大时可excel进行推算,如果迭代应该怎么做?另外这种方式分组有没有理论依据呢?这样分出的等级有没有效?
大概是这个样子:
group
图片后面还有很多数据,贴不全,B列数的和(id计数总和)1344628,1%=13446
没有显示的15级id求和是13820。

展开
收起
glitterblue 2017-11-29 18:39:47 3066 0
1 条回答
写回答
取消 提交回答
  • 采纳回答
    1. 数据量大怎么做:Excel不熟所以……随便入门一种编程语言吧比如python
    2. 做法的理论依据:这相当于是按照特征分布密度做特征离散化,理论基础是有的, 比如有些课程把分数排名前30%的学生定为优秀,后10%的定不及格;但是按贴出的这个数据集,有很多不合理的地方,比如特征值0。0001和0.0002明明从特征来看相差很小,但是离散化之后完全变成两个类别。如果最终目的是做机器学习的话,不建议这样做特征离散化。
    2019-07-17 21:46:06
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
重新定义计算的边界 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载