python 数据分析k-means聚类分析

简介: python 数据分析k-means聚类分析

常见的数据分析模型有回归,分类,聚类
此次介绍的是无监督学习方面的聚类分析代码

所有代码可直接运行

1 读取数据方法

其实pandas有更方便的pd.readcsv方法实现快速读取csv数据集,还有其它方法读取各种数据集

import numpy as np

def loadDataSet(filename):
    """
    读取数据集
    Args:
        filename:文件名
    Return:
        dataMat:数据样本矩阵
    """
    dataMat=[]
    with open(filename,'rb') as f:
        for line in f:
            line=line.decode('utf-8').strip()
            eles=list(map(float,line.split(',')))
            dataMat.append(eles)
    return dataMat

2 计算样本聚类方法

"""计算俩向量的欧式距离
Args:
    vecA:向量A
    vecB:向量B
Returns:
    欧式距离
def distEclud(vecA,vecB):
    """计算俩向量的欧式距离
    Args:
        vecA:向量A
        vecB:向量B
    Returns:
        欧式距离
    """
    return np.sqrt(np.sum(np.power((vecA-vecB),2)))

3生成聚类中心矩阵

def randCent(dataSet,k):
    """
    随机生成k个聚类中心
    Args:
        dataSet:数据集
        k:簇类目
    Returns:
        centroids:聚类中心矩阵
    """
    m,_=dataSet.shape
    centroids=dataSet.take(np.random.choice(m,k),axis=0)
    return centroids 

4 k-mians聚类

def kMeans(dataSet,k,maxIter=5):
    """
    k-means
    Args:
        dataSet:数据集
        k:簇类数
    Returns:
        centroids 聚类中心矩阵
        clusterAssment:点分配结果
    """
    #随机初始化聚类中心
    centroids=randCent(dataSet,k)
    init_centroids=centroids.copy()
    
    m,n=np.shape(dataSet)
    #点分配结果,第一列指明样本所在的簇,第二列指明样本到聚类中心的距离
    clusterAssment=np.mat(np.zeros((m,2)))
    
    #标识聚类中心是否仍在改变
    clusterChanged=True
    #直至聚类中心不在变化
    iterCount=0
    while clusterChanged and iterCount<maxIter:
        iterCount+=1
        clusterChanged=False
        #分配样本到簇
        for i in range(m):
            #计算第i个样本到各个簇类中心的距离
            minIndex=0
            minDist=np.inf
            for j in range(k):
                dist=distEclud(dataSet[i,:],centroids[j,:])
                if (dist<minDist):
                    minIndex=j
                    minDist=dist
            #任何一个样本的类簇分配发生变化则认为改变
            if (clusterAssment[i,0]!=minIndex):
                clusterChanged=True
            clusterAssment[i,:]=minIndex,minDist**2
            
        #刷新聚类中心,移动聚类中心到所在簇的均值位置
        for cent in range(k):
            #通过数组过滤获得簇中的点
            ptsInCluster=dataSet[np.nonzero(
                clusterAssment[:,0].A==cent)[0]]
            if ptsInCluster.shape[0]>0:
                #计算均值并移动
                centroids[cent,:]=np.mean(ptsInCluster,axis=0)
    return centroids,clusterAssment,init_centroids

5 画图展示结果

import matplotlib.pyplot as pl

%matplotlib inline

dataMat=np.mat(loadDataSet('../data/price_diff.csv'))
m,n=np.shape(dataMat)
m,n
#注意,这里我们只设定了对多四个簇的样式,所有前面如果set_k超过4,后面会出现index_error
patterns=['o','D','^','s']
colors=['b','g','y','black']
fig=pl.figure()
title='kmeans with k={}'.format(set_k)
ax=fig.add_subplot(111,title=title)
for k in range(clusterCount):
    #绘制聚类中心
    ax.scatter(centroids[k,0],centroids[k,1],color='r',marker='+',linewidth=20)
    #绘制初始聚类中心
    ax.scatter(init_centroids[k,0],init_centroids[k,1],color='purple',marker='*',linewidths=10)
    for i in range(m):
        #绘制属于该聚类中心的样本
        ptsInCluster=dataMat[np.nonzero(clusterAssment[:,0].A==k)[0]]
        ax.scatter(ptsInCluster[:,0].flatten().A[0],ptsInCluster[:,1].flatten().A[0],marker=patterns[k],color=colors[k])

在这里插入图片描述

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
132 70
|
6天前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
在现代数据分析中,高维时间序列数据的处理和预测极具挑战性。基于矩阵分解的长期事件(MFLEs)分析技术应运而生,通过降维和时间序列特性结合,有效应对大规模数据。MFLE利用矩阵分解提取潜在特征,降低计算复杂度,过滤噪声,并发现主要模式。相比传统方法如ARIMA和深度学习模型如LSTM,MFLE在多变量处理、计算效率和可解释性上更具优势。通过合理应用MFLE,可在物联网、金融等领域获得良好分析效果。
24 0
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
161 10
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
8天前
|
数据可视化 算法 数据挖掘
Python时间序列分析工具Aeon使用指南
**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库,专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块,支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年,与 pandas 1.4.0 版本兼容,内置可视化工具,适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间,但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。
60 37
Python时间序列分析工具Aeon使用指南
|
4天前
|
机器学习/深度学习 运维 数据可视化
Python时间序列分析:使用TSFresh进行自动化特征提取
TSFresh 是一个专门用于时间序列数据特征自动提取的框架,支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程,处理数百个统计特征(如均值、方差、自相关性等),并通过假设检验筛选显著特征,提升分析效率。TSFresh 支持单变量和多变量时间序列数据,能够与 scikit-learn 等库无缝集成,适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择,并提供可视化工具帮助理解特征分布及与目标变量的关系。
38 16
Python时间序列分析:使用TSFresh进行自动化特征提取
|
1月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费习惯分析的深度学习模型
使用Python实现智能食品消费习惯分析的深度学习模型
152 68
|
5天前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
3天前
|
数据采集 缓存 API
python爬取Boss直聘,分析北京招聘市场
本文介绍了如何使用Python爬虫技术从Boss直聘平台上获取深圳地区的招聘数据,并进行数据分析,以帮助求职者更好地了解市场动态和职位需求。
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
129 36

热门文章

最新文章