聚类分析评估 下|学习笔记

简介: 快速学习聚类分析评估 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践聚类分析评估 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15537


聚类分析评估 下

 

内容介绍

一、内部指标

二、聚类结构验证

 

一、内部指标

1、凝聚度与分离度

(1)以事例来计算凝聚度和分离度。

Bss和wss加在一起,往往是一个常量。

下图为数据实际的例子,数据有四条记录,再看绿颜色的点,代表有四个样本。

image.png现在考虑一下,k=1和k=2分别计算的情况。

k=1时,它的中心平均值是在3这个位置。所以wss计算结果为10。

Bss是簇之间的分离度,考虑簇和簇之间的误差,k=1,就是一个簇,从中心到中心,共有四个样本,就是乘以4,计算结果为0。它们的和为10。

如果k=2,要把样本分成两类,有两个中心,一个中心在M1位置,另一个中心在M2位置。

计算wss,是一个类里面的每个样本与中心的误差的平方,m1是1.5,m2是4.5,m1,m2分别算出误差的平方,得出结果1。

计算k=2时的bss,即类之间的分离度。其中注意m1是与整个样本的中心3相减求出差值,计算结果为9,加在一起和为10,所以wss和bss加在一起的值是固定的。

(2)聚类效果

最终的结果都是10,但聚类的定义要求一个类里的样本要高度相似,类之间的差别要较大。所以wss越小越好,k=1时wss=10,k=2时wss=1,而bss要求分离度高,因而值越大越好。

判断聚类哪种更好,内部指标分离度和凝聚度可以帮助进行评估。

2、轮廓系数,silhouette coefficient,这个指标用得更多,因为它综合了凝聚度和分离度。

(1)定义:对于一个独立的样本i,要计算i到本簇中所有对象的平均距离,相当于凝聚度。

再计算第二个指标B,求指标到其他簇或最近簇对象的平均距离,可以选择一个簇或多个。之后会得到一个公式,可以算平均轮廓宽度。最后s总是>=0的。

image.png公式可以计算单个簇的轮廓系数,或者整个簇集的平均轮廓宽度。

(2)直观理解

a是一个簇里的,b是到最近的簇或者其他簇之间的,a相当于凝聚度,b相当于分离度,综合放在一起就叫轮廓系数。

注意评估的时候,越接近1越好。

 

二、聚类结构的验证

最困难和令人痛苦的就是聚类的校验和评估。

因为聚类是无监督的,没有分类可靠的最大原因就是评估很难,总是要评估靠谱不靠谱,好或坏,不像分类直接可以知道做的对不对。

聚类的评估,需要找一些指标来帮助。

但是如果没有努力,聚类分析仍然是一个黑艺术,只有有经验和勇气的真正的信徒才能获得成功。

有监督和无监督没有好坏之分,有监督有i,无监督则判断评估很困难。

但是聚类的评估还是要不断地探索。

相关文章
OFDM——PAPR减小(三)
OFDM——PAPR减小(三)
258 0
|
3月前
|
编解码 算法 自动驾驶
【雷达通信】用于集成传感和通信的OFDM雷达传感算法(Matlab代码实现)
【雷达通信】用于集成传感和通信的OFDM雷达传感算法(Matlab代码实现)
439 125
|
11月前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
1091 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
2月前
|
机器学习/深度学习 编解码 资源调度
正交啁啾分复用雷达技术(OCDM雷达):下一代传感系统技术
正交啁啾分复用雷达(OCDM)基于Fresnel变换,通过复用正交啁啾波形实现雷达通信一体化。相较传统FMCW,其多普勒容限更高、抗干扰强3-5 dB,支持高速移动场景,适用于自动驾驶与6G,是下一代高精度传感核心技术。
570 4
|
11月前
|
搜索推荐 数据挖掘 智能硬件
如何优化亚马逊广告以提高ROI?
在亚马逊竞争激烈的市场中,优化广告以提高ROI是卖家的关键任务。策略包括:1. 精准关键词研究,结合产品特性与目标受众需求,利用亚马逊工具和第三方资源;2. 动态调整广告出价,结合自动与手动出价;3. 优化广告创意,制作吸引人的图片和标题,编写有说服力的文案;4. 精准受众定位,利用亚马逊工具创建自定义受众;5. 持续数据分析,关注CTR、CVR、ACoS等关键指标,定期复盘并优化广告活动。
335 16
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之如何进行本地化部署
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
自然语言处理 JavaScript 前端开发
聊聊什么是 i18n?JavaScript 中的 i18n 基本概念
聊聊什么是 i18n?JavaScript 中的 i18n 基本概念
2437 1
|
开发者 Python
【Python】已解决:TypeError: descriptor ‘index‘ for ‘list‘ objects doesn‘t apply to a ‘str‘ object
【Python】已解决:TypeError: descriptor ‘index‘ for ‘list‘ objects doesn‘t apply to a ‘str‘ object
476 0
|
自然语言处理 知识图谱
|
Web App开发 数据采集 JavaScript
有JavaScript动态加载的内容如何抓取
有JavaScript动态加载的内容如何抓取