描述性统计分析 | 学习笔记

简介: 快速学习 描述性统计分析

开发者学堂课程【深入理解数据分析描述性统计分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7684


描述性统计分析


一、随机事件与概率之概率分布

二、一维和多维随机变量与分布函数的定义和性质

三、正态分布

四、二项分布

五、二项分布之独立重复实验概率的求法

六、二项分布之二项分布的数学期望和方差

七、泊松分布

八、统计指标按照其反映的内容或其数值表现形式

九、基本定量之统计指标按其所反映总体现象的数量特性的性质

十、基本定量之统计指标按管理功能作用

十一、数据分布的描述

十二、数据分布的描述之统计表的分布

十三、数据分布的描述之统计图分类


一、随机事件与概率之概率分布

1.随机事件

在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母 ABC 等表示。

事件关系:事件包含、和事件、积事件、差事件、互斥事件、对立事件。

运算:交换律、分配律、结合律、摩根律。

2.概率的统计定义

在随机试验中,若事件 A 出现的频率,随着试验次数 n 的增加,稳定于某一常数,则称 p 为事件 A 的概率,记作P(A)=p

概率的统计定义仅仅指出了事件的概率是客观存在的,但并不能用这个定义计算概率 P(A)。实际上,人们是采取一次大量实验或一系列频率的平均值作为 P(A)的近似值的。

3.随机变量及其分布

1)一维和多维随机变量与分布函数的定义和性质

2)一维随机变量的常见分布和分布的特征

3)随机变量的函数的分布、数学期望、方差具体含义、定义和性质

4)条件分布,随机变量的独立性


二、一维和多维随机变量与分布函数的定义和性质

随机变量是概率统计中重要的基本概念。随机事件可以通过随

机变量 X 表示,随机事件的概率一般形如 P ( a,P ( a,...,其中- oo。

如果一个变量依试验结果的改变而取不同的实数值,那么称这个变量为(一维)随机变量。

随机变量分布的含义是“随机变量取值的统计规律”。常用的形式有概率分布表,概率密度函数与分布函数。

随机变量数字特征的含义是“用某些实数来反映随机变量分布

的主要特征”。常用的形式有(数学)期望与方差。


三、正态分布

1.正态分布的定义(概率密度的公式)

2.分位点的定义:P{X>X0}=a0

3.正态分布的数学期望和方差


四、二项分布

1.二项分布的数学期望和方差

2.离散随机变量分布的定义(概率密度公式)

3.独立重复试验概率的求法


五、二项分布之独立重复实验概率的求法

一般地讲,独立重复试验应符合三个条件∶

1)任两次试验之间是相互独立的;

2)每一次试验都有两个事件,且这两个事件是相互对立的;

3)每次试验中的每个事件发生的概率是相同的。


六、二项分布之二项分布的数学期望和方差

数学期望:E(X)=np

方差:D(X)=np1-p


七、泊松分布

1.泊松分布概率的求法

2.泊松分布的定义:

image.png

3.泊松分布的数学期望和方差概念和性质及其应用


八、统计指标按照其反映的内容或其数值表现形式

1.总量指标

1)总量指标的概念

总量指标反映统计对象总体规模或水平的综合指标,其表现形式为绝对数。

2)总量指标的作用:

a)对现象总体认识的起点;

b)进行社会管理的基本依据之一;c)计算相对指标和平均指标的基础。

2.相对指标

1 )相对指标的概念

相对指标也称相对数,它是用两个有联系的指标进行对比的比值来反映现象数量特征和数量关系的综合指标。其表现为相对数。

2)相对指标的作用∶

a)反映现象之间的数量联系程度和差异程度。

b)有利于对所研究事物进行比较和分析。

3.平均指标

1)平均指标的概念与作用

平均指标又称平均数,它表明同类现象数量标志的一般水平。

a)便于比较分析。

b )用来综合测定工作质量和工作效率。

c)是制订各项定额的依据之一。


九、基本定量之统计指标按其所反映总体现象的数量特性的性质

1.数量指标

数量指标是反映社会经济现象总规模水平和工作总量的统计指标,一般用绝对数表示。

如职工人数、工业总产值、工资总额等。其数值大小一般随总体范围的大小而增减。质量指标是反映社会经济现象相对水平或平均水平的统计指标,用平均数或相对数表示。

2.质量指标

质量指标是指在计划和统计工作中,反映生产效果或工作质量的各种指标,如劳动生产率、单位面积产量、单位产品成本、设备利用率等。

质量指标的计算和分析对挖掘各部门、各单位工作中的内部潜力具有重要作用。质量指标是总量指标派生指标,用相对数或平均数表示,以反应现象之间的内在联系和对比关系。


十、基本定量之统计指标按管理功能作用

1.描述指标

2.评价指标

3.预警指标


十一、数据分布的描述

统计表形式繁简不一,通常是按项目的多少,分为单式统计表与复式统计表两种。只对某一个项目数据进行统计的表格,称为单式统计表,也称之为简单统计表。统计项目在2个或2个以上的统计表格,称之为复式统计表。


十二、数据分布的描述之统计表的分布

1.按分组情况不同

2.按统计表的分组情况分类

3.按作用不同

4.按统计表的作用分类

5.按统计表所显示的数列性质分类


十三、数据分布的描述之统计图分类

1.条图

2.百分条图和圆圈

3.线图

4.半对数线图

5.统计地图

6.散点图

7.直方图

相关文章
|
8天前
|
机器学习/深度学习 数据采集 人工智能
构建AI智能体:五十九、特征工程:数据预处理到特征创造的系统性方法
摘要:特征工程是将原始数据转化为机器学习模型可理解格式的关键步骤,类比于食材烹饪过程。其核心包括数据清洗(处理缺失值、异常值)、特征转换(标准化、分箱)、特征创造和特征选择。通过员工离职预测案例,展示了如何通过单变量分析(满意度、工作时长分布)、多变量分析(满意度与绩效关系)和业务分析(部门薪资组合)构建有效特征。特征工程能提升模型性能(如使用简单模型获得好效果)、增强可解释性(明确风险因素)并减少数据需求。
|
8月前
|
机器学习/深度学习 人工智能 编译器
本地化部署DeepSeek-R1蒸馏大模型:基于飞桨PaddleNLP 3.0的实战指南
本文基于飞桨框架3.0,详细介绍了在Docker环境下部署DeepSeek-R1-Distill-Llama-8B蒸馏模型的全流程。飞桨3.0通过动静统一自动并行、训推一体设计等特性,显著优化大模型的推理性能与资源利用效率。实战中,借助INT8量化和自动化工具,模型在8卡A100上仅需60GB显存即可运行,推理耗时约2.8-3.2秒,吞吐率达10-12 tokens/s。本文为国产大模型的高效本地部署提供了工程参考,适配多场景需求。
467 2
本地化部署DeepSeek-R1蒸馏大模型:基于飞桨PaddleNLP 3.0的实战指南
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
841 0
Elasticsearch自定义时间格式
Elasticsearch自定义时间格式
334 0
|
机器学习/深度学习 人工智能 API
LangChain之模型调用
LangChain的模型是框架中的核心,基于语言模型构建,用于开发LangChain应用。通过API调用大模型来解决问题是LangChain应用开发的关键过程。
1037 1
|
SQL 关系型数据库 数据库
手把手教你管理PostgreSQL数据库及其对象
手把手教你管理PostgreSQL数据库及其对象
914 0
|
存储 机器学习/深度学习 数据可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
|
机器学习/深度学习 自然语言处理 PyTorch
Transformer 自然语言处理(一)
Transformer 自然语言处理(一)
560 0
Transformer 自然语言处理(一)
|
存储 SQL
离线数仓(九)【DWS 层开发】(1)
离线数仓(九)【DWS 层开发】
|
存储 前端开发
【react从入门到精通】React父子组件通信方式详解(有示例)
在React中,父子组件最常用的4种通信方式: - 通过 props 实现父子组件通信 - 通过 state 实现父子组件通信 - 通过回调函数实现父子组件通信 - 使用 React Context 实现组件通信 在项目实战过程中,可根据实际情况选择最合适的通信方式。
999 0
【react从入门到精通】React父子组件通信方式详解(有示例)