技术心得记录:概率统计13——二项分布与多项分布

简介: 技术心得记录:概率统计13——二项分布与多项分布

原文 |


相关阅读


最大似然估计(概率10)


寻找“最好”(3)函数和泛函的拉格朗日乘数法


伯努利分布


  如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和1,而不管观测条件是什么。


性质


  设p是随机变量等于1的概率,伯努利分布有一些特殊的性质:


  将上面的两个式子合并:


  伯努利变量是离散型,并且是一个0/1变量,它的数学期望是:


  方差是:


极大似然


  最大似然估计(概率10)


  对于伯努利分布的质量函数来说,p是唯一的参数。如果给定N个独立同分布的样本 {x(1), x(2), ……, x(N)},x(t)是投硬币的结果,是随机变量,x(t)?{0, 1},可以通过极大似然估计,根据样本推测出p的取值:


  取对数似然函数:


  这是个符合直觉的结果,即使没学过概率和极大似然也能得出这个结论。


二项分布


  假设某个试验是伯努利试验,成功概率用p表示,那么失败的概率为1-p。现在进行了N次这样的试验,成功了x次,失败了N-x次,发生这种情况的概率是多少?


质量函数


  对于每次实验来说,成功的概率都是p,失败的概率是1-p。//代码效果参考:http://www.lyjsj.net.cn/wx/art_23615.html

假设已经完成了N次试验,并且前x次都成功了,后N-x次都失败了:

  x次成功的情况当然不止一种,比如成功和失败交叉在一起:


  这种成功和失败的排列顺序共有种不同的情况,因此对于任意N次伯努利试验,成功了x次的概率是:


  的另一种记法是 。


  P(x)就是二项分布的质量函数,是N次伯努利试验中取得x次成功的概率。


性质


  二项分布的均值和方差分别为Np和Np(1-p)。


  从二项分布的质量函数P(x)可知,概率分布只与试验次数N和成功概率p有关,p越接近0.5,二项分布将越对称。保持二项分布试验的次数N不变,随着成功概率p逐渐接近0.5,二项分布逐渐对称,且近似于均值为Np、方差为Np(1-p)的正态分布:


多项分布


  多项分布是二项分布的扩展,其中随机试验的结果不是两种状态,而是K种互斥//代码效果参考:http://www.lyjsj.net.cn/wz/art_23613.html

的离散状态,每种状态出现的概率为pi,p1 + p1 + … + pK = 1,在这个前提下共进行了N次试验,用x1~xK表示每种状态出现次数,x1 + x2 + …+ xK = N,称X=(x1, x2, …, xK)服从多项分布,记作X~PN(N:p1, p2,…,pn)。

质量函数


  如果说二项分布的典型案例是扔硬币,那么多项分布就是扔骰子。骰子有6个不同的点数,扔一次骰子,每个点数出现的概率(对应p1~p6)都是1/6。重复扔N次,6点出现x次的概率是:  


  这和二项分布的质量函数类似。现在将问题扩展一下,扔N次骰子,1~6出现次数分别是x1~x6时的概率是多少?


  仍然和二项式类似,假设前x1次都是1点,之后的x2次都是2点……最后x6次都是6点:


  1~6出现次数分别是x1~x6的情况不止一种,1点出现x1次的情况有种;在1点出现x1次的前提下,2点出现x2次的情况有种;在1点出现x1次且2点出现x2次的前提下,3点出现x3的情况有种……扔N次骰子,1~6出现次数分别是x1~x6时的概率是:


  根据①:


  最终,扔骰子的概率质量函数是:


  把这个结论推广到多项分布:某随机实验如果有K种可能的结果C1~CK,它们出现的概率是p1~pK。在N随机试验的结果中,分别将C1~CK的出现次数记为随机变量X1~XK,那么C1出现x1次、C2出现x2次……CK出现xK次这种事件发生的概率是:


  其中x1 + x2 + …+ xK = N,p1 + p2 + …+ pK = 1。


极大似然


  多项式的极大似然是指在随机变量X1=x1, X2=x2, ……, XK=xK时,最可能的p1~pK。


//代码效果参考: http://www.lyjsj.net.cn/wx/art_23611.html

  对数极大似然:


  现在问题变成了求约束条件下的极值:


  根据拉格朗日乘子法:


  寻找“最好”(3)函数和泛函的拉格朗日乘数法


  根据约束条件:


  这也是个符合直觉的结论。面对有N个样本的K分类数据集,当pi = xi/N 时,Ci类最可能出现xi次。为了这个结论我们却大费周章,也许又有人因此而嘲笑概率简单了……


随笔

相关文章
|
2月前
|
数据挖掘 Python
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
时间序列数据在现代数据分析中广泛应用,从金融市场到生物医学领域。本文重点介绍两种分析工具:互相关和相干性分析。互相关用于量化两个时间序列的时域关系,揭示前导-滞后关系;相干性分析则评估信号在频率域的相关性,适用于脑电图等研究。通过实际案例和Python代码示例,展示了这两种方法的应用价值。
310 8
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
|
1月前
|
数据挖掘
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分析和运动科学等领域的具体应用。
61 11
|
7月前
|
资源调度 数据可视化 算法
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
贝叶斯统计是一种基于贝叶斯定理的统计学方法,它不同于传统的频率派统计(或称为经典统计)。
|
9月前
|
机器学习/深度学习 算法 搜索推荐
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
|
9月前
|
数据可视化 算法 数据挖掘
R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数
R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数
|
9月前
|
数据可视化 流计算
估计获胜概率:模拟分析学生多项选择考试通过概率可视化
估计获胜概率:模拟分析学生多项选择考试通过概率可视化
|
9月前
|
安全 vr&ar
R语言非线性动态回归模型ARIMAX、随机、确定性趋势时间序列预测个人消费和收入、用电量、国际游客数量
R语言非线性动态回归模型ARIMAX、随机、确定性趋势时间序列预测个人消费和收入、用电量、国际游客数量
|
9月前
|
数据可视化
R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析
R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析
|
9月前
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
|
9月前
|
数据可视化 算法 数据挖掘
KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数
KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

热门文章

最新文章