需求分析(下)| 学习笔记

简介: 快速学习需求分析(下)

开发者学堂课程【机器学习实战:需求分析(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/530/detail/7130


需求分析(下)

内容介绍

一、数据收集

二、数据探查分析

三、算法选择

 

一、数据收集

(一)了解已知数据,筛选、确定、获取可以解答场景分析中提出的问题的数据。

(二)从以下问题角度去考虑数据收集:

1、目前可以得到哪些数据?

2、得到数据的成本是否可以接受?

3、回答问题至少需要哪些特征?OR现有数据特征哪些可能和问题相关?

4、是否有现成的目标值还是需要标注?

5、现有数据量是否合适?

6、现有数据是否具有代表性?

(三)以泰坦尼克为例

从以下问题角度去考虑数据收集:

1、11 个特征,1 个标签

2、已提供

3、PassageID、Name 无用

4、全部有标签,无需标注

5、仅有这么多,没有选择

 

二、数据探查分析

(一)数据探查,即探索性数据分析( EDA ),对数据进行的基本分析,可以从中挖出更具有含金量的信息,为进一步的研究指明方向

(二)种类:数据基本分析、统计量分析、数据分布分析、 相关性分析、周期性分析、数据对比分析

image.png

1、数据基本分析,即简单了解数据集的概况、对待分析的数据有一个基本认识。

从以下问题角度去了解数据集 (仍以泰坦尼克为例)

(1)数据量的大小

(2)数据缺失值

(3)数据明显错误

(4)数字段类型

(5)连续还是离散

(6)字段取值范围

是否包含结果标签(目标字段)

2、统计量分析即通过计算定量数据的常见统计指标,了解数据的状况。通常从集中趋势、离散趋势两个角度进行。

(1)集中趋势:用来描述一组数据向某一中心值靠拢集中的程度。主要包括以下测量值:

①平均数(最常用):算数平均数、几何平均数、调和平局数,加权

②众数:数据中出现最多的观测值

③中位数:是将一组数据按一定顺序排列后,处于中间位置上的变量值

④分位数:衡量数据位置的测定指标,主要包括上四分位数、下四分位数….…

(2)离散趋势:反应变量远离集中趋势测量值的程度。主要包括以下测量值:

①极差:一组数据最大值和最小值的差,容易受极端值影响

②四分位差:上四分位值与下四分位值的差,反应 50% 数据的离散程度

③方差与标准差:反应一个数据与本组数据平均值相比相差的数值

④变异系数:原始数据标准差与原始数据平均数的比,常用来比较两组不同数据的的离散程度

(3)统计量分析:生存预测

以数据集中的 fare (票价)为例,使用 PAI(阿里云提供的学习产品)中的统计分析组件进行计算。

image.png

可根据其画出分布图

image.png

3、数据分布分析:概率分布

(1)概率分布。用以表述随机变量取值的概率规律。随机变量可以通过一个固定的函数表达,具有一些

特定的特征,拥有一些固定的性质。 一旦某个数据集被验证符合某种概率分 布,则该数据集就具

有了此分布的各种性质,可以借助这些性质对该数据集进行研究。

(2)正态分布:如果一个指标并非受到某一个因素的决定作用,而是受到综合因素的影响,那么这个指标分布呈正态分布。

(3)正态分布的数值如果用统计图来表示的话,通常呈钟型,即两端的极端值个数很少,太大或者太小的数很少,大部分的数值都在平均值附近分布。

如图所示

image.png

4、数据分布分析:统计量

(1)通过计算数据集的统计量,或者通过直方图、茎叶图等图表,发现数据集的分分布特征,拟合数据集满足的分布,直接使用相关分布的特点进行数据处理、分析。

和分布相关的统计量,除了之前提到的集中中趋势、离散趋势的量之外,还有峰度和偏度

(2)峰度( Kurtosis )是描述总体中所有取值分分布形态陡缓程度的统计量。值大于 0,则比正态分布尖。

(3)偏度( skewness )是统计数据分布偏斜方向和程度的度量。值大于 0,则右侧长尾。

image.png

5、数据分布分析:直方图

(1)直方图( Histogram )是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。用直方图可以解析出数据的规则性,比较直观地看出其分布状态。

(2)以频率直方图为例,先计算极差,再确定组距,将数据分成多组,统计每组数据出现的频次,作图。

image.png

6、数据分布分析:分布拟合检验

(1)分布拟合是指数据集的分布是否和某个已知的概率分布一致。分布检验是指判到断一组数据是否满足某个概率分布。

(2)以正态分布为例,有有多种方法实现:

作图法:

①P-P 图、Q-Q 图

②直方图、茎叶图

③箱线图

计算法:

偏度和峰度

检验方法:

①Chi-Square 检验

②KS 检验

③Shapiro 检验

image.png

7、数据分布分析:生存预测

以数据集中的 fare (票价)为例,使用 PAI 中的统计分析组件进行计算。如同可看到明显不符合分布。

image.png

8、数据分布分析:离散型数据

离散型数据的分布分析,也称定性数据分布分析,一般进行占比分析,通过饼图或者条形图等来描述:

image.png

9、数据对比分析

对比分析是指把几个相互联系的指标示进行比较,从数量上展示和说明对比指标的大小。适合指标间的横向和纵向比较、时序比较等。

下图展示了不同年龄阶段,生存人数和死亡人数之间的对比:

image.png

10、相关性分析

相关性分析是分析多个连续变量之间相关程度的强弱。可以通过散点图来展示,也可以计算相关系数或者协方差系数来量化相关关系。相关系数为 -1 到 1,绝对值越接近 1 说明相关性越强,通常 0.8 以上认为是密切相关,系数取负值为负相关,取正值为正相关。

下图展示了 pclass 和 fare 之间的皮尔森系数,其结果为 -0.54,表示负相关且相关性不引强。

11、周期性分析

(1)研究某个变量随着时间变化而呈现出来的某种周期性的变化趋势。适合时序数据集,可以分析按照不同时间周期数据变化的情况。

通常周期性分析会有几个部分随机波动,按照时间变化趋势可分解为各种变化趋势。

(2)通过折线图可以看出存在周期性变化的趋势,需要结合具体的时序分析模型进一步分析得到更多结论。

image.png

 

三、算法选择

算法选择时要注意的问题:

1、了解算法的优点和缺点,判断是否能满足本例需求

①过拟合与拟合不足

②线性和非线性问题

③参数多少、结果是否稳定

④随机性

⑤前提条件

⑥计算复杂度

2、算法对数据的要求

①数据类型:连续值、离散值

②数据敏感:空值、异常值等

③数据量

④结果数据是否平衡

⑤满足算法前提假设条件

相关文章
|
C# Windows 容器
C#或Winform中的消息通知之系统托盘的气泡提示窗口(系统toast通知)、ToolTip控件和ToolTipText属性
NotifyIcon控件表示系统右下角任务栏上的托盘图标,其ShowBalloonTip方法用于显示气球状提示框(Win10只有为本地Toast通知),ToolTip\oolTipText可以...
3336 0
C#或Winform中的消息通知之系统托盘的气泡提示窗口(系统toast通知)、ToolTip控件和ToolTipText属性
|
3天前
|
数据采集 人工智能 安全
|
12天前
|
云安全 监控 安全
|
4天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1041 151
|
4天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1731 9
|
9天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
680 152
|
11天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
644 13