备案控制台

开发者社区大数据文章正文

SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析

2024-04-25 74

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析

原文链接：http://tecdat.cn/?p=27587

某交通工程专业博士生想要研究不同因素对通勤交通方式选择的影响，对成都两个大型小区（高端和普通）居民分别进行了出行调查，各调查了300人。

其中

Distance：居住地离上班地的距离（公里）

Pincome：个人年收入（万元）

Hincome：家庭年收入（万元）

Age：年龄

Gender：性别（0：女；1：男）

Car：家庭拥有汽车的数量

Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）

Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他）

People：家里人口数量

Children：家里未成年人数量

Housing：房屋拥有类型（0：租房；1：买房）

Area：房屋居住面积（平方米）

Mode：主要通勤出行方式（1：汽车；2：公共交通；3：电动自行车；4：其他）

但是小区的编号忘记记录下来。

任务：

判断每个变量时数值型变量还是分类型变量，数组型的计算其均值和方差，分类型的列出每类的频率。

数值型变量为：

Distance：居住地离上班地的距离（公里）

Pincome：个人年收入（万元）

Hincome：家庭年收入（万元）

Age：年龄

Car：家庭拥有汽车的数量

People：家里人口数量

Children：家里未成年人数量

Area：房屋居住面积（平方米）

点击标题查阅往期内容

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

01

02

03

04

分类型变量为：

Gender：性别（0：女；1：男）

Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）

Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他）

Housing：房屋拥有类型（0：租房；1：买房）

Mode：主要通勤出行方式（1：汽车；2：公共交通；3：电动自行车；4：其他）

分类型变量为：

Gender：性别（0：女；1：男）

Education：教育水平（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）

Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其他）

Housing：房屋拥有类型（0：租房；1：买房）

Mode：主要通勤出行方式（1：汽车；2：公共交通；3：电动自行车；4：其他）

判断每个受访者所在的小区。

根据居住地距离，我们使用kmean聚类将样本分成2个类别，并保存结果到小区变量中。

结果如图所示。

聚类中心结果如下

每个样本的聚类信息：

分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度有什么区别吗？

从均值比较的结果来来看，第1个类别的工作里小区工作距离较短，第三个类别年龄较小，第一个小区家庭人口较大，教育水平第四个小区较低。

然后对不同聚类类别的数据进行独立样本t检验。

由上表中的结果：distance的sig>0.05，可知：distance无显著区别。

对每个小区分别建模（逻辑回归和决策树），看哪个模型对出行方式选择的拟合更好（比较模型在检验样本里的表现，而不是训练样本），并分析各个变量如何影响通勤交通方式的选择。

首先对1区的样本进行决策树模型

可以看到距离收入、家庭人口数和性别对出行方式有较大的影响，男性出行以电动车为主，女性也有一部分以公交出行为主，从家庭人口数来看，大于2人的家庭出行以公交车为主。

然后使用逻辑回归进行预测

由结果来看整个逻辑回归的表达式是显著的；由“似然比检验”表格可知所有变量的显著性水平均小于0.05，可知自变量对于因变量mode都是显著的；而在参数估计中可得，自变量的显著性水平较低，即这些变量和mode是有关系的。

对2区出行数据进行决策树模型分析

从结果来看，决策树分类模型可以看到区2的出行方式主要受到距离的影响。若距离较大，则出行方式以汽车和电瓶车为主，若距离较小，则以公交车为主。

对区2的出行数据进行逻辑回归

由结果来看整个逻辑回归的表达式是显著的；由“似然比检验”表格可知所有变量的显著性水平均小于0.05，可知自变量对于因变量mode都是显著的；而在参数估计中可得，自变量的显著性水平较低，即这些变量和mode是有关系的。

文章标签：

数据挖掘

机器学习/深度学习

数据可视化

关键词：

决策树数据分析

决策数据分析

树数据分析

数据分析逻辑回归

调查数据分析

拓端数据部落

目录

相关文章

米码收割机

|

6月前

|

机器学习/深度学习数据采集数据可视化

【python】python当当数据分析可视化聚类支持向量机预测（源码+数据集+论文）【独一无二】

【python】python当当数据分析可视化聚类支持向量机预测（源码+数据集+论文）【独一无二】

米码收割机

119 1 1

众所周知

|

3月前

|

机器学习/深度学习数据采集算法

机器学习在医疗诊断中的前沿应用，包括神经网络、决策树和支持向量机等方法，及其在医学影像、疾病预测和基因数据分析中的具体应用

医疗诊断是医学的核心，其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用，包括神经网络、决策树和支持向量机等方法，及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用，面临的挑战及应对策略，并展望了未来的发展趋势。

众所周知

235 1 1

花开富贵111

|

8月前

|

文字识别算法数据挖掘

视觉智能开放平台产品使用合集之对于统计研究和数据分析，有哪些比较好的工具推荐

视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台，这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API，快速将视觉智能功能集成到自己的应用或服务中，而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。

花开富贵111

92 0 0

龙大吉

|

5月前

|

存储算法数据挖掘

高效文本处理新纪元：Python后缀树Suffix Tree，让数据分析更智能！

在大数据时代，高效处理和分析文本信息成为关键挑战。后缀树作为一种高性能的数据结构，通过压缩存储字符串的所有后缀，实现了高效的字符串搜索、最长公共前缀查询等功能，成为文本处理的强大工具。本文探讨Python中后缀树的应用，展示其在文本搜索、重复内容检测、最长公共子串查找、文本压缩及智能推荐系统的潜力，引领数据分析迈入新纪元。虽然Python标准库未直接提供后缀树，但通过第三方库或自定义实现，可轻松利用其强大功能。掌握后缀树，即掌握开启文本数据宝藏的钥匙。

龙大吉

70 5 5

拓端数据部落

|

9月前

|

数据可视化前端开发数据挖掘

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

拓端数据部落

107 0 0

python编程狮

|

6月前

|

存储数据可视化数据挖掘

大数据环境下的房地产数据分析与预测研究的设计与实现

本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统，通过数据采集、清洗、分析、机器学习建模和数据可视化技术，为房地产行业提供决策支持和市场洞察，探讨了模型的可行性、功能需求、数据库设计及实现过程，并展望了未来研究方向。

python编程狮

283 4 4

大数据环境下的房地产数据分析与预测研究的设计与实现

python编程狮

|

6月前

|

机器学习/深度学习前端开发数据挖掘

基于Python Django的房价数据分析平台，包括大屏和后台数据管理，有线性、向量机、梯度提升树、bp神经网络等模型

本文介绍了一个基于Python Django框架开发的房价数据分析平台，该平台集成了多种机器学习模型，包括线性回归、SVM、GBDT和BP神经网络，用于房价预测和市场分析，同时提供了前端大屏展示和后台数据管理功能。

python编程狮

138 9 9

米码收割机

|

6月前

|

数据采集数据可视化数据挖掘

【python】python知名品牌调查问卷数据分析可视化（源码+调查数据表）【独一无二】

【python】python知名品牌调查问卷数据分析可视化（源码+调查数据表）【独一无二】

米码收割机

131 1 1

米码收割机

|

6月前

|

数据可视化算法数据挖掘

【python】商业数据聚类-回归数据分析可视化（源码+数据）【独一无二】

【python】商业数据聚类-回归数据分析可视化（源码+数据）【独一无二】

米码收割机

89 1 1

米码收割机

|

6月前

|

机器学习/深度学习数据采集数据可视化

【python】python心理健康医学数据分析与逻辑回归预测（源码+数据集+论文）【独一无二】

【python】python心理健康医学数据分析与逻辑回归预测（源码+数据集+论文）【独一无二】

米码收割机

103 0 0

热门文章

最新文章

从数据小白到大数据达人：一步步成为数据分析专家

大模型时代下的智能数据分析

设计文档：智能化医疗设备数据分析与预测维护系统

云原生数据仓库AnalyticDB：深度智能化的数据分析洞察

无缝集成 MySQL，解锁秒级数据分析性能极限

数据分析经典案例重现：使用DataWorks Notebook 实现Kaggle竞赛之房价预测，成为数据分析大神！

欢迎使用Quick BI，开启您的智能数据分析之旅！

Pandas数据应用：电子商务数据分析

电商数据分析的方法

Pandas数据应用：天气数据分析

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一）

TMDB电影数据分析（下）

TMDB电影数据分析（上）

【MongoDB 专栏】MongoDB 在实时数据分析中的应用

如何利用Python中的Pandas库进行数据分析和可视化

.NET Compact Framework下的GPS NMEA data数据分析（二）转

【MongoDB 专栏】MongoDB 聚合管道：数据分析利器

使用Python进行数据分析的5个必备技巧

Python 与 PySpark数据分析实战指南：解锁数据洞见

电商数据分析的利器：电商关键词搜索API接口（标题丨图片丨价格丨链接）

相关课程

更多

实时数据分析：使用Flink实时发现最热Github项目

日志服务 SLS 可观测数据分析平台介绍

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

互联网下半场的角逐，玩转轻资产的大数据服务—图（关系网络）数据分析与阿里应用

如何使用大数据计算服务 MaxCompute进行数据分析

相关实验场景

更多

倚天大数据电商数据分析快速实践

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

PolarDB MySQL HTAP：实时数据分析加速

助力游戏运营数据分析

下一篇

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升