SPSS Modeler用K-means(K-均值)聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

简介: SPSS Modeler用K-means(K-均值)聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

全文链接:http://tecdat.cn/?p=32840


随着经济的快速发展和城市化进程的不断推进,土地资源的利用和管理成为了一项极为重要的任务点击文末“阅读原文”获取完整代码数据


而对于全国各省市而言,如何合理利用土地资源以及如何影响GDP,通过科学的方法进行规划和管理,是提高土地利用效率的关键。

本文旨在应用SPSS Modeler,帮助客户采用K-means(K-均值)聚类、CHAID、CART决策树等方法,对31个省市的土地利用情况数据进行分析和建模,以期提供科学有效的土地利用规划和管理策略。


31省市土地利用情况数据


image.png

数据流


本文使用的数据来自于国家统计局发布的31省市土地利用情况数据,选取31个省市作为研究对象,并选取了包括草地、耕地、园地、林地、水域和建设用地等7种土地类型的利用情况数据。然后,使用SPSS Modeler进行数据清洗、聚类、决策树等步骤,最终得到模型结果。

image.png

K-means(K-均值)聚类


在对完整的数据集进行初步分析后,本文采用K-means聚类算法对数据集进行聚类分析。在聚类过程中,我们首先需要确定聚类的个数k。根据肘部法则和轮廓系数法则,我们得出最终选择k=5为较为合适的聚类数目。通过SPSS Modeler的K-means节点进行计算,得到了以下聚类概况、聚类类别和散点图结果。

image.png

image.png

image.png

image.png

image.png

image.png


点击标题查阅往期内容


R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化


01

02

03

04


聚类概况


image.png

聚类类别


image.png

通过分类结果我们不难看出,同类省份基本上是相邻省份,或是区域类型(沿海、内陆)相似的省份,对于同类省份,我们可以采取相似的管理制度,使同等级省份得到更好的发展,也可以利用政策方式让高等级省份带动低等级省份发展。


CHAID决策树


在进行完K-means聚类分析后,为了更好地了解各个类别的特征和关系,本文使用CHAID决策树算法对数据集GDP的影响因素进行进一步的分析。首先使用SPSS Modeler的CHAID节点进行计算,得到以下变量重要性和决策树结果。

变量重要性

在CHAID决策树算法中,我们使用卡方值(χ2)来表征每个变量的重要性。具体而言,卡方值越大,则该变量在分类中起到的作用越大。在本文的分析中,最具有代表性的变量是园地、农用地和交通用地比重。

image.png

决策树结果


通过CHAID决策树算法,我们得到了以下的决策树模型。其中每个叶子节点代表一类,而每个内部节点包含了一个决策规则,用于判断不同属性值的记录应该属于哪一个分支。在决策树中房地产用地比重、建设用地比重和城市扩张程度等变量对分类结果有较大的影响。

image.png

image.png

点击标题查阅往期内容


数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病


01

02

03

04


模型误差

为了检验CHAID决策树模型的性能,我们采用随机抽样的方法将数据集分为训练集和测试集,然后利用训练集来训练模型,并使用测试集来验证模型的预测精度。

image.png

CART决策树:


除了使用CHAID决策树算法外,本文还采用了CART决策树算法对数据进行建模。通过SPSS Modeler的C&RT节点进行计算,得到以下变量重要性和决策树结构。


变量重要性


在CART决策树算法中,我们使用基尼指数(Gini Index)来衡量每个变量的重要性。具体而言,基尼指数越小,则该变量在分类中起到的作用越大。在本文的分析中,最具有代表性的变量是交通、建筑和工矿用地面积。

image.png

决策树结构

通过CART决策树算法,我们得到了以下的决策树模型。在该模型中,每个内部节点代表一个判断规则,而每个叶子节点代表一个分类。最终的分类结果与CHAID决策树模型比较相似,也可提供对土地利用管理的一些启示。

image.png

image.png

模型误差结果:


同样采用随机抽样的方法将数据集分为训练集和测试集,使用训练集训练模型,并使用测试集验证模型预测的准确性。

image.png

结论:


最终我们得到了以下结果文件:

image.png

本文旨在应用SPSS Modeler,采用K-means(K-均值)聚类、CHAID、CART决策树等方法,对31个省市的土地利用情况数据进行分析和建模,并为科学有效的土地利用规划和管理策略提供参考。通过聚类和决策树分析,我们得出以下结论:

1.不同省市的土地利用存在显著差异,按主要利用类型可分为5类;

2.交通、建筑用地面积比重是主要影响土地利用的因素;

3.通过CHAID和CART决策树算法,我们可以较精确地对不同地区的土地利用进行分类,并提出相应的管理建议。

本文的研究结论对于全国土地资源的利用和管理具有一定的参考价值,其方法也可以在其他领域中得到应用和推广。


相关文章
|
Docker 容器
docker镜像的备份恢复迁移
docker镜像的备份恢复迁移
427 0
|
5月前
|
机器学习/深度学习 数据可视化 算法
Python | 随机搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法
本教程将带你掌握Python中XGBoost模型的随机搜索调参、SHAP可解释性分析及多种可视化技术,涵盖特征相关性热图、散点密度图、超参数优化等核心内容,助力科研论文与实际项目应用。
320 2
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python | 贝叶斯搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法
本教程将推出Python实现的XGBoost贝叶斯调参+SHAP可解释性分析与可视化,涵盖数据应用、算法原理及SHAP理论,助力SCI论文提升模型可解释性,附完整代码与环境配置指南。
670 7
|
IDE Java Spring
Spring Boot中的多模块项目构建
Spring Boot中的多模块项目构建
|
设计模式 缓存 Java
万字+20张图剖析Spring启动时核心的12个步骤
大家好,我是三友~~ 今天来扒一扒Spring在启动过程中核心的12个步骤 之所以来写这篇文章,主要是来填坑的 之前在[三万字盘点Spring 9大核心基础功能](https://mp.weixin.qq.com/s/QSchk0uHNbdvlAHxJbCMuA)这篇文章的末尾中给自己挖了一个坑,提了一嘴有机会要写这么一篇文章 但是由于Spring启动过程并不复杂,所以后面就没写了 不过,好巧不巧,刚刚好有兄弟来催更了,那么此时这个机会就来了,这篇文章也就有了
|
C#
WPFの获取任意元素的位置
原文:WPFの获取任意元素的位置 如果布局在Grid中: 方法一:  //_stackPanel为子元素,_grid为父元素  Point point = _stackPanel.TranslatePoint(new Point(0, 0), (UIElement)_grid);  方法二:  /...
1243 0
|
机器学习/深度学习 并行计算 监控
基于sklearn随机森林算法探究肥胖的成因(一)
基于sklearn随机森林算法探究肥胖的成因
1151 0
基于sklearn随机森林算法探究肥胖的成因(一)
|
机器学习/深度学习 移动开发 人工智能
【机器学习】集成学习(Boosting)——XGBoost算法(理论+图解+公式推导)
【机器学习】集成学习(Boosting)——XGBoost算法(理论+图解+公式推导)
2443 0
【机器学习】集成学习(Boosting)——XGBoost算法(理论+图解+公式推导)
|
存储 缓存 NoSQL
聊聊缓存
拿破仑说:胜利属于坚持到最后的人。 而正巧,咱们今天就是要聊一个,关于怎么让系统在狂轰乱炸甚至泰山压顶的情况下,都屹立不倒并坚持到最后的话题:缓存。
299 0
【项目实战典型案例】21.面向对象复用、面向对象实现、立体化权限落地
【项目实战典型案例】21.面向对象复用、面向对象实现、立体化权限落地