数据属性 | 学习笔记

简介: 快速学习 数据属性

开发者学堂课程【深入理解数据分析 数据属性学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7682


数据属性


内容介绍

一、数学意义上的数据类型

二、分类型数值

三、连续型数值

四、大数定理--概念

五、数据的样本特征--数据的来源

六、实验设计获得样本数据--实验设计在不同场景应用案例


一、数学意义上的数据类型

1.整数(Integer Type)

从数学意义上讲整数指没有小数点的数。

2.浮点(Real Type)

浮点数是指有小数点的数值。

3.布尔(Boolean Type)

布尔型的数字是指01yes or nofalse true,它是属于二维的数值。

4.字符(Character Type)

字符串型的数值在我们数据分析当中经常会用到。

5.日期/时间(Date/DateTime Type)

尤其在进行大数据分析的时候,日期和时间是我们经常会碰到一些数据类型,有些时候为了做一些分析会对时间进行调整。


二、分类型数值

1.定类数据(Nominal

是指我的数据类型有定性的类别。例如 abcd

2.定序数据(Ordinal

定序是在定类的情况下有一定的顺序。

3.定距数据(Interval

定距指有一定距离的数值。

4.定比数据(Ratio)

定比数据指他的比例是一样的。


三、连续型数值

连续型数值类型通常是指一个整数或者是非整数。

举例:这类整数通常是非整数。虽然有时记载的是整数,如身高的厘米数,但是当提高精确后,总会出现小数的。对连续型数据进行分析的方法,通常称为变量的方法。如:长度、时间、质量、OD 值、血压值等。

1.定性数据

定义:
1)在统计学上的包括分类数据和顺序数据,是一-组表示事物性质、规定事物类别的文字表述型数据,不能将其量化,只能将其定性。
2)分类数据:只能归于某-类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述。
3)顺序数据:只能归于某一有序类别的非数字型数据,它也是有类别的,但这些类别是有序的。

是指对某个事物不能将其量化,只能将其定性。(定性数据可以称你是男的或女的;另外一种是你的收入是高的,中等的,低的属于定性数据)

2.定量数据

1)定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据和连续数据。
2)数值型数据,按数字尺度测量的观察值,其结果表现为具体的数值。
3)有明确的数据来源和数据支持,比如,我国 GDP 增长率为7 %

定量数据通常会由整数或者浮点数组成。它是一个数值的变化很多的定量数据可能是一个连续变量连续型的数值。在定量数据分析手段会用到线图或是箱型图等等。在定量数据的分析的图形化表达当中我们也会经常看到一些闪点图,比如 xy 轴把一些定量的点画在闪点图上来对比两个变量之间的关系。


四、大数定理--概念

1.概率论历史上第一个极限定理属于伯努利,后人称之为"大数定律”。
2.
概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
3.
大数定律(law of large numbers) ,是一种描述当试验次数很大时所呈现的概率性质的定律。
4.
这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。

5.但注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数"定律”。
6.
通俗地说,这个定理就是,在试验不变的条件下, 重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。大数定律分为弱大数定律和强大数定律。

大数定理概念是指当你在集群或人群中,当你取的值足够大的时候,取值的平均值将无限的接近于真实的平均值。大数定理也是奠定了一个统计的基础,只要取到足够的样本数据就可以猜出整个人群或者整个群体的平均数。


五、数据的样本特征--数据的来源

1.大数据的来源

大数据有现有的数据和取样的数据。比如企业的大数据取样可能是企业本身的客户群体,客户群体可能只代表18岁到40岁的消费人群,它并不代表全国的消费人群,因此大数据的来源本身带有局限性和歪曲性。现有数据和取样数据会夹杂在大数据中,因此会给统计方面带来一些挑战。

2.采样的问题:

1)从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
2)具有经济性、时效性强、适应面广、准确性高等特点。

image.png

取样是为了节约成本。例如:研究全国人特征的时候不能取全部量,可以从全体的样本中随机取一定规模的小样本进行分析。因此有经济性,时效性特别好的特点。

3.问卷调查的数据质量问题

1)方差:

①方差是在概率论和统计方差衡量随机变量或一组数据时离散程度度量。

②概率论中方差用来度量随机变量和其数学期望(即均值)偏离程度。

③统计中的方差是各个数据分别与其平均数之差的平方的和的平均。

④许多实际问题中,研究方差即偏离程度有着重要意义,方差是衡量源据和期望值相差的度量值。

(2)标准方差:

①各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。
②因此,标准差也是一种平均数标准差是方差的算术平方根。
③标准差能反映一个数据集的离散程度。平均数相同的,标准差末必相同。
④一组数据中的每一个数 与这组数据的平均数的差的平方的和再除以数据的个数,取平方根即是。


六、实验设计获得样本数据--实验设计在不同场景应用案例

营销促销的 AB 实验

1.基本概念:
1AB 测试的基本概念就是设计两个(或更多)方案,然后通过数据收集和数据分析来找出更优化的方案
2)在商业运营中, AB 测试可以帮助公司制定最优的市场营销策略,例如针对网页复制,促销邮件或是搜索广告等

我们把研究样本分成 AB 两组,A B之间可能只有一项或者是两项的差别,当差别会不会造成一些绩效的差别,把两组分别进行衡量。根据统计的分析利用大数定理和标准方差的定理分析这两组之间是否具备一定的差别。

临床医药药效研究,实验组与控制组

2.基本概念:

样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值) ,方差(计量资料)或合并的率(计数资料各组的合并率) , 一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。FDA 的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从 power 出发,保证有多少把握能做出显著来。

实验组是吃药组,控制组是不吃药组。通过两组之间的对比分析得出实验组的药效与控制组不吃药相比是否有效。在比较过程中大数定理和标准方差起到了很大的作用。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
JavaScript 安全 API
告别 Vuex?Pinia:轻量高效的状态管理新选择
告别 Vuex?Pinia:轻量高效的状态管理新选择
357 84
|
8月前
|
人工智能 测试技术 定位技术
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。
524 46
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
|
6月前
|
数据采集 Web App开发 JavaScript
无头浏览器技术:Python爬虫如何精准模拟搜索点击
无头浏览器技术:Python爬虫如何精准模拟搜索点击
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
3938 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
11月前
|
存储 架构师 容灾
阿里云基础设施高可用最佳实践沙龙上海站圆满举办!
2025年1月9日,阿里云在上海虹桥绿地铂瑞酒店成功举办基础设施高可用最佳实践沙龙NO.2。活动吸引了华东地区多家企业的CTO、架构师和技术从业者参与。专家们分享了高可用的基础知识、分级标准及云端架构实战经验,涵盖计算、存储、网络和云原生等领域,重点讨论了企业如何在阿里云上构建高可用数据中心。现场互动热烈,参会者与专家深入交流,探讨技术应用与合作机会。
|
网络协议 Windows
Windows Server 各版本搭建 DNS 服务器实现域名正反向解析
Windows Server 各版本搭建 DNS 服务器实现域名正反向解析
|
应用服务中间件 网络架构
kodexplorer私有云本地部署,低成本内网穿透教程
可搭建:网站或个人博客;类似于某云的网盘;远程路由器(等家电)控制,内网的服务穿透至外网;迅雷远程下载;家庭云存储中心等。准备工作: 1、 可以插U盘的路由器(推荐二手小米mini,40包邮不能再多了) 2、 将路由器刷为最新的老毛子固件(参见恩山无线论坛) 3、 掏钱买VPS或者寻找一个免费的FRPS服务器 搭建步骤简述: 1、 路由器,联网,插U盘(事先格式化为EXT4格式,可以用diskgenius免费版)。
7020 0
|
API
宜搭怎样在所属模块运用定点推送通知
宜搭怎样在所属模块运用定点推送通知
584 0
|
监控 Android开发
GB28181状态信息报送解读及Android端国标设备接入技术实现
今天主要聊聊GB/T28181状态信息报送这块,先回顾下协议规范相关细节,然后再针对代码实现,做个简单的说明。
315 0
|
SQL Oracle 关系型数据库
ORACLE——一条SQL计算同比、环比
ORACLE——一条SQL计算同比、环比