基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

简介: 通过数据集结合阿里云相关产品进行多维度分析,给出一定的结论,并有数据支撑

一、实验题目

北京购房推荐指南

二、实验目的

通过数据集进行多维度分析,给出一定的结论,并有数据支撑

三、实验难点

分析维度与机器学习

四、实验过程(截图)
数据集介绍
URL,ID,经度,纬度,小区ID,交易时间,上市天数,关注人数,总价,每平米价格,面积,寝室,客厅,厨房,浴室,楼层,建筑类型,建楼时间,装修情况,建筑结构,梯户比,是否有电梯,是否满五年,是否临近地铁,地区,小区平均房价
1、在MaxCompute平台上建立数据表
image.png
2、导入数据
image.png

3、建立维度表以便使用QuickBI展示:
数据预处理:
image.png

建维度表:
image.png
image.png
image.png

4、为机器学习PAI测试SQL语句
image.png

5、QuickBI可视化展示
image.png
左上为观察数据集中,满5年的房屋数量,60%以上的数据为5年以上的房屋
右上为每个地区对房价的关注人数,可见朝阳地区对房价的关注人数最多(关注程度最高)
左下为地区对应房价的维度分析,可见西城和东城房价普遍偏高,房山房价偏低
右下为地区对应面积的维度分析,可见昌平/顺义的建房面积普遍较大
image.png
最上的表格表示了寝室数量和房价的对应关系(寝室数量越多房价越高)
左下展示了建筑类型和房价的对应关系,平方(四合院)平均房价最高,板楼平均房价最低
右下展示了住房面积和建筑类型的对应关系,板塔结合的类型住房面积最大。
image.png
上方表格显示了建筑结构和价格的对比,结果显示,砖木价格最贵,混合最便宜
左下展示了装修情况和面积的对比毛坯房面积最大,简装修面积最小
右下展示了建楼时间与面积的对应关系,可见1944年平均建楼面积最大,之后一直呈现下降趋势

6、机器学习PAI
image.png
预测通过给价钱分级,大于等于100,小于等于350的记为-1,大于等于350,小于等于750的记为0,其余的记为1使用逻辑回归算法,进行预测,本部分进行预测的是根据Livingroom的数量/装修情况/建楼时间//建筑面积/上市时间和关注人数预测这个房子的价格分级。

混淆矩阵
image.png
准确率/精确率
image.png
本部分使用了朴素贝叶斯/随机森林等算法模型,评分不是很理想,最终决定使用逻辑回归算法进行建模。

推荐结论:

若想找专业人士询问关于房子的相关问题,建议找朝阳人;
如果不在意地点的情况下,房山为房价最低的地区
如果对建筑面积有所需求,喜欢住面积大的房子,可以去昌平/顺义买房
板楼的住房面积位于第二大,同时板楼也是房价最低的楼型。
混合材料建筑价格最低,砖木建筑价格最高,可根据自身情况选择建筑材料。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
6月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
9月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
428 0
|
6月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
501 0
|
7月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
523 2
|
7月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
596 1
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
482 14
|
9月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
318 4
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
593 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
235 14

热门文章

最新文章