基于阿里云平台进行游戏数据分析(二)

简介: 在本项目中,我们将基于阿里云平台进行游戏数据分析。本文是这个项目介绍的第二部分,主要介绍绘制散点图,建立回归模型,检测变量之间的线性关系。

在对游戏数据完成了数据导入与预处理等环节以后,下面我们将基于这些数据绘制散点图,建立回归模型,检测变量之间的线性关系。

点击机器学习页面左侧的“实验”,然后点击页面下方的“新建实验”按钮,如下所示:在名称一栏输入“数据转换”,然后点击创建按钮,如下所示:
image.png
创建完实验后,拖入“源/目标”中的“读数据表”组件,如下所示:
image.png
点击“读数据表”组件,在右侧“表名”一栏中输入“pokemon”,并右键改表名:![image.png]
image.png
拖入“统计分析”下的“散点图”组件,将“读数据表”组件与“散点图”组件相连接,即构建了一个从读数据表到散点图的数据流,如下图所示:
image.png
单击散点图组件,在右侧属性栏中点击选择字段,选择base_total和capture_rate后点击确定
image.png
右键单击散点图组件,选择执行到此处;执行完成之后,节点右侧会出现绿色的勾,如下图所示:
image.png
此时可以右键点击组件,选择查看日志:
image.png
然后回到机器学习PAI页面,右键点击散点图,查看分析报告,如图:
image.png
弹出窗口的左上角,即是base_total和capture_rate的散点图(剩下三张图是base_tota和本身,capture_rate和本身,base_total和capture_rate的散点图)

一般情况下,可以通过观察散点图,发现自变量和因变量之间的关系模式,以便于后续决定使用哪种转换方法。

然后关闭散点图,拖入线性回归,预测,回归模型评估这三个组件,
【1】机器学习-回归-线性回归:用于建立因变量与多个自变量之间的线性关系
【2】机器学习-预测:用于模型预测
【3】机器学习-评估-回归模型评估:基于预测结果和原始结果,评价回归算法的优劣,
构建如下数据流:
image.png

在线性回归中,选择属性设置
字段设置-选择特征列:capture_rate
字段设置-选择标签列:base_total
image.png
参数设置:
image.png

在预测中进行属性设置
字段设置:特征列选择capture_rate,原样输出列选择择generation 和base_total
image.png
在回归模型评估进行属性设置
字段设置:原回归值选择base_total
image.png
右键点击回归模型评估组件,选择执行到此处
image.png
执行完成后,右击回归模型评估组件,选择“查看分析报告”,如下所示:
image.png
在弹出的窗口中可以看到,由于模型评估组件给出的是残差的直方图,不能用于
判断线性与否,所以之后我们将会单独生成一个残差图。

接着点击指标数据标签,可以看到对base_total和capture_rate线性回归出来的R2≈0.4438867655729208
image.png

关闭回归评估,拖入一个SQL脚本组件和一个散点图组件,工具-SQL脚本。
构建如下数据流:
image.png

将代码输入SQL脚本编辑器,然后点击“保存”按钮。右击“SQL脚本”,选择执行该节点,如下所示:
image.png

执行完成后,点击散点图组件,然后选择residual 和capture_rate 为特征列,如下所示:
image.png

右击散点图,选择“执行该节点”,执行完成后,右击散点图组件,然后选择“查看分析报告”,如下所示:
image.png

残差图中的点如果是随机分布,说明数据是线性的,否则是非线性。观察capture_rate的残差图,发现capture_rate的残差包含了斜向上的模式,说明base_total和capture_rate的线性关系不是很强。

目录
相关文章
|
23天前
|
Kubernetes 并行计算 数据挖掘
构建高可用的数据分析平台:Dask 集群管理与部署
【8月更文第29天】随着数据量的不断增长,传统的单机数据分析方法已无法满足大规模数据处理的需求。Dask 是一个灵活的并行计算库,它能够帮助开发者轻松地在多核 CPU 或分布式集群上运行 Python 代码。本文将详细介绍如何搭建和管理 Dask 集群,以确保数据分析流程的稳定性和可靠性。
50 3
|
1月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
1月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
|
2月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19139 12
|
2月前
|
存储 Java 数据挖掘
构建基于Spring Boot的数据分析平台
构建基于Spring Boot的数据分析平台
|
2月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
2月前
|
存储 NoSQL Java
使用Java实现高效的数据分析平台
使用Java实现高效的数据分析平台
|
2月前
|
存储 分布式计算 NoSQL
Java中的高效数据分析与处理平台实现
Java中的高效数据分析与处理平台实现
|
3月前
|
存储 数据可视化 Java
使用Java实现可视化数据分析平台
使用Java实现可视化数据分析平台
|
2月前
|
存储 数据采集 数据挖掘
Java中的高效数据分析与处理平台设计
Java中的高效数据分析与处理平台设计

热门文章

最新文章