使用 PAI 进行聚类分析 | 学习笔记

简介: 快速学习使用 PAI 进行聚类分析

开发者学堂课程【机器学习实战:使用 PAI 进行聚类分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/530/detail/7142


使用 PAI 进行聚类分析

内容介绍

一、PAI 聚类分析

二、总结

 

一、PAI 聚类分析

1.简介

进行完分类分析后使用 iris 数据集进行聚类分析,还是去新建一个实验,先给它起个名字叫做 iris_clustering_new 选择项目

PAI_DEMO_NEW,然后点击新建,还是需要切换一下的,点一下首页再点击实验,就可以看到 iris_clustering_new 这个实验,进入实验之后点击左侧的组件进入组件的面板,然后进行点读数据表,需要进行聚类,目前进入聚类分析的方法比较少,这个可以直接拖进去,然后还需要做一个评估,聚类模型的评估,接下来是连线,要把读数据表里边的输出连到key均值的左侧输入,因为左侧输入是输入数据,右侧输入是输入质心。

输出分别是聚类表、聚类中心点模型以及聚类统计表,模型评估左侧输入点是聚类模型,将线先连接起来,右侧是输入数据表,用相应的线进行连接。

2.设置

相应的设置点读数据表二使用 iris 数据集输入,输完之后鼠标要离开输入框,开始去更新,去数据库中找,去 must computer 中找。更新成功查看字段信息。接下来点击 K 均值聚类,设置下它的相关属性,特征列,做聚类时候假设不知道均衡的结果只知道上边四列,就是花萼花瓣的长度和宽度,根据这个自动去探索一个模式,把这些花聚到不同的类当中去,所以特征就是下边四列。

image.png

点击确定,特征列就不选了,参数设置可以选择不同的聚类数,假设我们知道是三个,距离度量方式目前支持三种,之前我们讲过有十几种距离度量方式,这里支持三种:欧式距离、夹角余弦、以及 cityblock 绝对值距离,质心初始化方法包括random、firstK、uniform、K-means++ 以及使用初始质心表,这里选择 K-means++,最大迭代数本节课不是重点,这就是聚成三类的一个流程:

image.png

3.五类流程

现在我们可以考虑多聚集几个,比如说五类的:

image.png

现在设置一下 K 均值聚类,个数设置成五类,比较是三类的好还是五类好,选择四个性状的数据,模型评估里也做一下配置,选择字段就是参与评估的列,只选择上面等我四个,因为下面是结果列,在做真正等我聚类时结果列根本不存在,点击确定,接下来就去执行一下,用了两次的K均值模型一个是 K 取值为 3 和一个是 K 取值为 5,用 iris 数据集聚两次类,然后去评估,看哪个效果更好,点运行开始执行,当然也要花一些时间,现在可以看到两个都执行成功了,如果处理不好这里很容易犯错,例如聚类模型评估节点,一定要选择参与评估的列,因为 Kmeans++ 只能处理数值型的特征,实际上提供的数据集中还有字符串的特征,一定都要勾选数据型特征,才不会报错,否则会报错,因为 species 是一个 string 类型它不能处理,处理过后看一下结果,K=3 的看一下评估报告,聚类情况: CH 指标是 525,CH 指标计算工程比较复杂,简单来讲 CH 指标越大说明聚类效果越好,每一个类类内凝聚性较好,类间的区分度较好。

image.png

再看一下 K=5 聚类的:

image.png

它的指标是 291,这就说明 K=3 聚类的效果比 K=5 聚类效果更好,事实上我们也知道数据来自于二次数据集,本身就有三种花的类型,

现在看一下模型,这个模型里是应该有刚刚 iris_clustering_new 新的模型的,生成两个 K 均值聚类模型,注意 K 均值聚类 -1K=3 的聚类模型要好于 K 均值聚类 -2,可以将 K 均值聚类 -2 分支删掉,用时就不会出现歧义。同样在做数据预测时或模型应用时也可以按照之前介绍分类时候介绍的模型部署,部署成在线的离线的等等。

 

二、总结

这是聚类分析相关的内容演示,关于基本 PAI 的使用方法,包括服务开通,包括统计分析,包括分类聚类的应用,就基本介绍完了,实际上演示的过程中只是简单的介绍一下大概的流程,PAI 的工具怎么使用,事实上和实际上项目还相差很久。

在介绍机器学习内容时讲过的数据预处理、特征工程等等这些问题实际上在上述流程都没有体现,希望大家在掌握了基本的操作之后,可以找一个实际的案例,亲自动手从头到尾的做一下,课程也提供了一个完整的案例,就是泰坦尼克生成预测的案例,希望大家能用数据和实验手册认真将它做一遍,利用 wander 演示,在做的过程中主动去思考如何使这个模型的效果更好,以上就是关于 PAI 的基本功能的演示。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
机器学习/深度学习 编解码 计算机视觉
Python机器学习和图像处理学习笔记
Python机器学习和图像处理学习笔记
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-决策边界(decision boundary)
机器学习经典算法-个人笔记和学习心得分享
1707 0
学习笔记: 机器学习经典算法-决策边界(decision boundary)
|
机器学习/深度学习 算法 搜索推荐
【吴恩达机器学习笔记】十五、大规模机器学习
【吴恩达机器学习笔记】十五、大规模机器学习
168 0
|
机器学习/深度学习 算法
【吴恩达机器学习笔记】九、机器学习系统的设计
【吴恩达机器学习笔记】九、机器学习系统的设计
147 0
|
机器学习/深度学习 算法
【吴恩达机器学习笔记】八、应用机器学习的建议
【吴恩达机器学习笔记】八、应用机器学习的建议
197 0
|
机器学习/深度学习 算法 前端开发
学习笔记: 机器学习经典算法-集成学习策略
机器学习经典算法-个人笔记和学习心得分享
735 0
|
机器学习/深度学习 算法 Python
学习笔记: 机器学习经典算法-决策树(Decision Tress)
机器学习经典算法-个人笔记和学习心得分享
552 0
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-核SVM(KernelSVM)
机器学习经典算法-个人笔记和学习心得分享
560 0
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-线性SVM(LinearSVM)
机器学习经典算法-个人笔记和学习心得分享
532 0
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-空间内一点到超平面的距离推广公式
机器学习经典算法-个人笔记和学习心得分享
587 0

热门文章

最新文章