开发者社区> 问答> 正文

如何对于数据集的聚集趋势进行评估啊?

已解决

如何对于数据集的聚集趋势进行评估啊?

展开
收起
游客ihzapojsw2ysk 2022-08-02 22:21:26 624 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    有一个常用的方法:霍普金斯统计量。

    霍普金斯统计量的计算公式:

    10.jpg

    假设有一个数据集D,从这个数据集D中去抽取P的数据对象,组成一个数据集w。依然再从这个数据集D中抽取P的数据对象,组成一个数据集u,那么Wi的含义就是集合W中任意一个数据对象到它最近邻的数据对象的距离的和。UI指的是UI中的任何一个数据对象i到集合d.u这样一个集合中离它最近的一个数据对象的距离的和。如果数据分布是均匀的,那么这个西格玛WI的值和西格玛UI的值是尽可能地接近的。所以霍普金斯的分布大概是0.5左右。如果数据分布是比较倾斜的,有可能UI就会非常倾斜。当霍普金斯统计量的值等于0或1的时候,那么就意味着数据的分布是高度倾斜的,是具有聚类趋势的。

    2022-08-03 09:09:34
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《基于数据全生命周期的数据资产价值评估方法及应用》论文 立即下载
基于Spark的面向十亿级别特征的 大规模机器学习 立即下载
基于Spark的面向十亿级别特征的大规模机器学习 立即下载