备案控制台

开发者社区云计算文章正文

技术心得记录：概率统计13——二项分布与多项分布

2024-06-27 50

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 技术心得记录：概率统计13——二项分布与多项分布

原文 |

相关阅读

最大似然估计(概率10)

寻找“最好”（3）函数和泛函的拉格朗日乘数法

伯努利分布

　　如果随机试验仅有两个可能的结果，那么这两个结果可以用0和1表示，此时随机变量X将是一个0/1的变量，其分布是单个二值随机变量的分布，称为伯努利分布。注意伯努利分布关注的是结果只有0和1，而不管观测条件是什么。

性质

　　设p是随机变量等于1的概率，伯努利分布有一些特殊的性质：

　　将上面的两个式子合并：

　　伯努利变量是离散型，并且是一个0/1变量，它的数学期望是：

　　方差是：

极大似然

　　最大似然估计(概率10)

　　对于伯努利分布的质量函数来说，p是唯一的参数。如果给定N个独立同分布的样本 {x(1), x(2), ……, x(N)}，x(t)是投硬币的结果，是随机变量，x(t)?{0, 1}，可以通过极大似然估计，根据样本推测出p的取值：

　　取对数似然函数：

　　这是个符合直觉的结果，即使没学过概率和极大似然也能得出这个结论。

二项分布

　　假设某个试验是伯努利试验，成功概率用p表示，那么失败的概率为1-p。现在进行了N次这样的试验，成功了x次，失败了N-x次，发生这种情况的概率是多少？

质量函数

　　对于每次实验来说，成功的概率都是p，失败的概率是1-p。//代码效果参考：http://www.lyjsj.net.cn/wx/art_23615.html

假设已经完成了N次试验，并且前x次都成功了，后N-x次都失败了：

　　x次成功的情况当然不止一种，比如成功和失败交叉在一起：

　　这种成功和失败的排列顺序共有种不同的情况，因此对于任意N次伯努利试验，成功了x次的概率是：

　　的另一种记法是。

　　P(x)就是二项分布的质量函数，是N次伯努利试验中取得x次成功的概率。

性质

　　二项分布的均值和方差分别为Np和Np(1-p)。

　　从二项分布的质量函数P(x)可知，概率分布只与试验次数N和成功概率p有关，p越接近0.5，二项分布将越对称。保持二项分布试验的次数N不变，随着成功概率p逐渐接近0.5，二项分布逐渐对称，且近似于均值为Np、方差为Np(1-p)的正态分布：

多项分布

　　多项分布是二项分布的扩展，其中随机试验的结果不是两种状态，而是K种互斥//代码效果参考：http://www.lyjsj.net.cn/wz/art_23613.html

的离散状态，每种状态出现的概率为pi，p1 + p1 + … + pK = 1，在这个前提下共进行了N次试验，用x1~xK表示每种状态出现次数，x1 + x2 + …+ xK = N，称X=(x1, x2, …, xK)服从多项分布，记作X~PN(N：p1, p2,…,pn)。

质量函数

　　如果说二项分布的典型案例是扔硬币，那么多项分布就是扔骰子。骰子有6个不同的点数，扔一次骰子，每个点数出现的概率（对应p1~p6）都是1/6。重复扔N次，6点出现x次的概率是：　　

　　这和二项分布的质量函数类似。现在将问题扩展一下，扔N次骰子，1~6出现次数分别是x1~x6时的概率是多少？

　　仍然和二项式类似，假设前x1次都是1点，之后的x2次都是2点……最后x6次都是6点：

　　1~6出现次数分别是x1~x6的情况不止一种，1点出现x1次的情况有种；在1点出现x1次的前提下，2点出现x2次的情况有种；在1点出现x1次且2点出现x2次的前提下，3点出现x3的情况有种……扔N次骰子，1~6出现次数分别是x1~x6时的概率是：

　　根据①：

　　最终，扔骰子的概率质量函数是：

　　把这个结论推广到多项分布：某随机实验如果有K种可能的结果C1~CK，它们出现的概率是p1~pK。在N随机试验的结果中，分别将C1~CK的出现次数记为随机变量X1~XK，那么C1出现x1次、C2出现x2次……CK出现xK次这种事件发生的概率是：

　　其中x1 + x2 + …+ xK = N，p1 + p2 + …+ pK = 1。

极大似然

　　多项式的极大似然是指在随机变量X1=x1, X2=x2, ……, XK=xK时，最可能的p1~pK。

//代码效果参考： http://www.lyjsj.net.cn/wx/art_23611.html

　　对数极大似然：

　　现在问题变成了求约束条件下的极值：

　　根据拉格朗日乘子法：

　　寻找“最好”（3）函数和泛函的拉格朗日乘数法

　　根据约束条件：

　　这也是个符合直觉的结论。面对有N个样本的K分类数据集，当pi = xi/N 时，Ci类最可能出现xi次。为了这个结论我们却大费周章，也许又有人因此而嘲笑概率简单了……

随笔

游客zn7mvnkypuy76

目录

相关文章

Deephub

|

2月前

|

数据挖掘 Python

时间序列分析中的互相关与相干性分析：前导-滞后关系的理论基础与实际应用

时间序列数据在现代数据分析中广泛应用，从金融市场到生物医学领域。本文重点介绍两种分析工具：互相关和相干性分析。互相关用于量化两个时间序列的时域关系，揭示前导-滞后关系；相干性分析则评估信号在频率域的相关性，适用于脑电图等研究。通过实际案例和Python代码示例，展示了这两种方法的应用价值。

Deephub

310 8 8

时间序列分析中的互相关与相干性分析：前导-滞后关系的理论基础与实际应用

Deephub

|

1月前

|

数据挖掘

五种被低估的非常规统计检验方法：数学原理剖析与多领域应用价值研究

本文将详细介绍五种具有重要应用价值的统计检验方法，并探讨它们在免疫学（TCR/BCR库分析）、金融数据分析和运动科学等领域的具体应用。

Deephub

61 11 11

小空门123-30335

|

7月前

|

资源调度数据可视化算法

贝叶斯统计是一种基于贝叶斯定理的统计学方法，它不同于传统的频率派统计（或称为经典统计）。

贝叶斯统计是一种基于贝叶斯定理的统计学方法，它不同于传统的频率派统计（或称为经典统计）。

小空门123-30335

58 0 0

拓端数据部落

|

9月前

|

机器学习/深度学习算法搜索推荐

SPSS大学生网络购物行为研究：因子分析、主成分、聚类、交叉表和卡方检验

SPSS大学生网络购物行为研究：因子分析、主成分、聚类、交叉表和卡方检验

拓端数据部落

225 1 1

拓端数据部落

|

9月前

|

数据可视化算法数据挖掘

R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

拓端数据部落

82 7 7

拓端数据部落

|

9月前

|

数据可视化流计算

估计获胜概率：模拟分析学生多项选择考试通过概率可视化

估计获胜概率：模拟分析学生多项选择考试通过概率可视化

拓端数据部落

77 1 1

拓端数据部落

|

9月前

|

安全 vr&ar

R语言非线性动态回归模型ARIMAX、随机、确定性趋势时间序列预测个人消费和收入、用电量、国际游客数量

R语言非线性动态回归模型ARIMAX、随机、确定性趋势时间序列预测个人消费和收入、用电量、国际游客数量

拓端数据部落

116 0 0

拓端数据部落

|

9月前

|

数据可视化

R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析

R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析

拓端数据部落

66 0 0

拓端数据部落

|

9月前

R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响

R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响

拓端数据部落

57 0 0

拓端数据部落

|

9月前

|

数据可视化算法数据挖掘

KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数

拓端数据部落

68 0 0

热门文章

最新文章

如何在阿里云服务器上安装Redis数据库

性能测试报告（实例）

【新功能】企业级Maven私有仓库服务结束公测，全面开放使用

你的密码安全吗？这三种破解方法让你大开眼界！

【珍藏】Java Bean Validation详解及国际化集成

SVG路径动画解密

Linux下chkconfig命令详解

Distributed2：Linked Server Login 添加和删除

接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡

exo：22.1K Star！一个能让任何人利用日常设备构建AI集群的强大工具，组成一个虚拟GPU在多台设备上并行运行模型

Eino：字节跳动开源基于Golang的AI应用开发框架，组件化设计助力构建AI应用

Sonic：自动对齐音频与唇部动作，一键合成配音动画！腾讯与浙大联合推出音频驱动肖像动画生成框架

Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Ola：清华联合腾讯等推出的全模态语言模型！实现对文本、图像、视频和音频的全面理解

DeepRant：一款专为国际游戏玩家设计的翻译工具，一键翻译聊天对话，无需切出游戏

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

【Azure Blob】操作Blob之分页List Blob一致性、索引时延及Tag支持问题解答

相关课程

更多

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【医学搜索Query相关性判断】赛题及baseline解读

南瓜书《机器学习公式推导》

信息科技前沿技术及应用趋势

智能运维赛（复赛）：利用数据和算法，快速定位系统异常并进行根因分析

数据挖掘类比赛汇总

相关电子书

更多

漏洞与数据的奇点临近

中美教育差异之观察

强化学习在电商环境下的若干应用与研究

相关实验场景

更多

欧拉图的构造性证明与算法实现

推荐系统入门之使用ALS算法实现打分预测

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型