基础篇:数据挖掘的聚类算法和优势

简介: 文|十方 比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异) 可以参照一下sklearn网站给出的列表:2.3. Clustering 除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法

数据挖掘

文|十方

比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异)

可以参照一下sklearn网站给出的列表:2.3. Clustering

数据挖掘

数据挖掘

除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法,然后按照距离把最接近的两个观测(类)合并,直到合并成一个大类为止。

最短距离法:

类间距为两类中最近观测的距离。
不限制类形状,对拉长的分布效果好,会删除边缘的观测点

最长距离法:

类间距为两类中最远观测的距离。
倾向于产生直径相等的类,易受异常值影响。

中间距离法:

类间距为最长距、最短距、类内距离的加权。

重心法:

类间距为两类重心之间的距离
对奇异值稳健

类平均法:

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类,偏向于产生方差相同的类。

离差平方和法:

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类,对异常值敏感

密度估计:

较远的距离设为无穷。较近的两个样本,距离与局部密度成反比。
适用于不规则形状类,不适用样本数太少。

两阶段密度估计:

用密度估计计算距离,再用最短距离法聚类。
普适性较强

除了以上这些常见方法,值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大,邻域范围难以设定的问题,非常鲁棒,看起来棒棒的。

ps:如果希望聚的效果好,距离度量方法有时候比聚类方法更重要。


目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
146 4
|
3天前
|
运维 监控 算法
企业局域网监控软件中 Java 优先队列算法的核心优势
企业局域网监控软件是数字化时代企业网络安全与高效运营的基石,犹如一位洞察秋毫的卫士。通过Java实现的优先队列算法,它能依据事件优先级排序,确保关键网络事件如异常流量、数据泄露等被优先处理,保障系统稳定与安全。代码示例展示了如何定义网络事件类并使用PriorityQueue处理高优先级事件,尤其在面对疑似风险时迅速启动应急措施。这一核心技术助力企业在复杂网络环境中稳健前行,护航业务腾飞。
49 32
|
5月前
|
数据采集 机器学习/深度学习 算法
【优秀设计案例】基于K-Means聚类算法的球员数据聚类分析设计与实现
本文通过K-Means聚类算法对NBA球员数据进行聚类分析,旨在揭示球员间的相似性和差异性,为球队管理、战术决策和球员评估提供数据支持,并通过特征工程和结果可视化深入理解球员表现和潜力。
190 1
【优秀设计案例】基于K-Means聚类算法的球员数据聚类分析设计与实现
|
5月前
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
176 1
|
2月前
|
存储 缓存 算法
C语言在实现高效算法方面的特点与优势,包括高效性、灵活性、可移植性和底层访问能力
本文探讨了C语言在实现高效算法方面的特点与优势,包括高效性、灵活性、可移植性和底层访问能力。文章还分析了数据结构的选择与优化、算法设计的优化策略、内存管理和代码优化技巧,并通过实际案例展示了C语言在排序和图遍历算法中的高效实现。
50 2
|
2月前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
3月前
|
算法 数据挖掘
基于粒子群优化算法的图象聚类识别matlab仿真
该程序基于粒子群优化(PSO)算法实现图像聚类识别,能识别0~9的数字图片。在MATLAB2017B环境下运行,通过特征提取、PSO优化找到最佳聚类中心,提高识别准确性。PSO模拟鸟群捕食行为,通过粒子间的协作优化搜索过程。程序包括图片读取、特征提取、聚类分析及结果展示等步骤,实现了高效的图像识别。
|
4月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
5月前
|
存储 SQL 算法
B端算法实践问题之Blink在实时业务场景下的优势如何解决
B端算法实践问题之Blink在实时业务场景下的优势如何解决
52 1
|
5月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
106 5

热门文章

最新文章