从抛硬币到泊松分布

密码学 1年前 (2023) admin
300 0 0

0. 目录

1. 垫话
2. 前言
3. 前置概念
3.1 概率分布
3.2 二项分布
3.3 伯努利过程
4. 二项分布
4.1 要素 & 问题
4.2 formula
4.3 intuition
4.4 conclusion
4.5 another interesting
5. 泊松分布
5.1 要素 & 问题
5.2 二项分布模拟求解
5.3 二项分布模拟求解的问题
5.4 二项分布的极限形式
5.5 本质

1. 垫话

“概率论与数理统计”是大二的课程,那时候已经不怎么翘课打魔兽了,算是大学学的比较好的一门课,期末 20 分钟交卷考了 94(当然这也有学校垃圾卷子简单的因素在里面)。但基本上也只是停留在公式流的层面,早就忘光光了。这其实也是我国教育,尤其是工科教育的问题:从来不跟你说清楚是什么、为什么以及能干什么,填鸭就完事了。
上次在 B 站刷到“小叶的灵魂自省” up 主,其本人在一所美国大学任教,讲统计学方面的知识,把泊松分布重新学习理解了一遍,于是有了本文,感谢 up 主。

2. 前言

本文从概率分布及伯努利过程的基本概念开始,以抛硬币实验入手讲解二项分布,最后推导出泊松分布。

3. 前置概念

3.1 概率分布

首先要回答清楚,什么是概率分布。
所谓概率分布,就是在某个多次重复的实验中,所有能观察到的实验结果的概率的统计,这个统计的具体形式可以是表,也可以是图像(是表还是图像不重要,它们只是同一数据的不同表现形式而已)。
当然,上面这个定义是我提出的,任何一本教科书上是找不到的。这个定义重在理解,而不在严谨性,如果都理解不了,光严谨有个 P 用。

3.2 二项分布

“实验”是研究概率分布的一个核心概念。
有一类特殊的实验,对于每一次单独的实验,其结果只有两种可能,不妨称这二者可能为“成功”和“失败”。研究这类实验概率分布的就是“二项分布”。
要研究一个具体的“二项分布”,就必须要做具体的实验。这个实验可以理解为一个“过程”,这个“过程”满足一定条件时,称为“伯努利过程”。而对“二项分布”的研究,必须要基于“伯努利过程”。

3.3 伯努利过程

一个伯努利过程满足如下条件:
  1. 这个过程包含 n 次实验。比如抛 n 次硬币。
  2. 每次实验只会有两种可能,成功或失败。比如抛一次硬币,要么正面要么反面,你可以把“正面”定义为“成功”,或者反之。
  3. 每次实验,成功的概率相同。比如每次抛硬币,正面的概率都是 50%。
  4. 每次实验之间是独立的。比如第 n 次抛硬币的结果,与第 n – 1 次抛硬币的结果无关。

4. 二项分布

4.1 要素 & 问题

很显然 n 次抛硬币的实验就是一个伯努利过程,其符合二项分布。我们以抛硬币为例讲解二项分布。
二项分布的要素非常简单:
  1. 实验的次数:抛 n 次硬币。
  2. 每次实验成功的概率:每次抛硬币,成功(不妨设“正面”结果为“成功”)的概率为 50%。
二项分布所要研究的问题:
在 n 次实验中,不同成功次数的概率分别是多少?具体来说,抛 3 次硬币,成功次数为 0 的概率是多少?次数为 1 的概率又是多少?以此类推。

4.2 formula

因为抛硬币太简单,大家也太熟悉,上面问题解的公式大家肯定也很熟悉:
从抛硬币到泊松分布
其中:
  • 从抛硬币到泊松分布 表示出现 x 次成功的概率(也就是所要研究的问题)
  • P 为单次实验成功的概率。
公式不解释了,因为大家应该都懂。

4.3 intuition

当然套上一小节的公式,就可以解决问题了。但这里请忘掉公式,如果没有公式当如何求解?
没错,把所有可能出现的情况都罗列出来,然后分别统计(H 表示正面向上,T 表示反面向上):
outcomes
x
P
HHH
3
1/8
TTT
0
1/8
HTT
1
1/8
THT
1
1/8
TTH
1
1/8
HHT
2
1/8
HTH
2
1/8
THH
2
1/8
上面的表格罗列了实验的所有可能,但其不可称为概率分布。因为概率分布研究的是唯一化的 x:
x
Pr
0
1/8
1
3/8
2
3/8
3
1/8
如果非要画成图的话:
从抛硬币到泊松分布

4.4 conclusion

so, what is the intuition behind the formula?
实际上,公式中的 从抛硬币到泊松分布,表示的就是罗列出所有可能实验结果的情况下,出现“x 次成功”的实验结果会有多少种情况。从抛硬币到泊松分布 你也自然懂的。

4.5 another interesting

当 n 足够大时,可以使用正态分布来近似二项分布。用正态分布来近似的好处是公式计算会更简单。

5. 泊松分布

5.1 要素 & 问题

前面铺垫那么多,主要是为了讲泊松分布。
泊松分布研究的问题模型是:
已知一段固定长度时间内,某个实验成功次数的平均值(期望)是 n,请问在这段固定长度时间内,成功次数的概率分布是怎样的?
注意,相较二项分布,泊松分布问题的要素变了:
  1. 固定长度的时间。
  2. 成功次数的平均值(期望)。
我们把问题搞的具体点:
假设你有一个网站,已知 1 个小时内平均会有 100 个访问者(或者说,访问者人数的期望值是 100)。问,这一小时内,访问者有 1 个人的概率是多少?有 2 个人的概率是多少?以此类推。

5.2 二项分布模拟求解

如果把上面的问题转换一下,它其实是一个二项分布的问题:
将 1 个小时切分成 60 分钟,那么每一分钟内,有人访问的概率是 100 / 60,不妨记 100 为 E(x)(访问人数 x 的期望),则这个问题就转化成如下的二项分布问题:
每次实验成功的概率 P = E(x) / 60,进行 60 次实验,成功的次数为 x 的概率是多少?
二项分布的公式带一带问题似乎就解决了。

5.3 二项分布模拟求解的问题

但问题显然不可能这么简单,那么就要搞清楚,用二项分布去模拟求解泊松分布的问题在哪?
问题在于时间粒度的切分上。
如果你把 1 小时切分成 60 分钟,那么每 1 分钟内只要有人访问,而无论实际访问人数是多少(可以是 1 个人,也可以是 100 个人,还可以是 1000 个人),它都只算是一次实验成功。显然这是不合理的。
那么把 1 小时切分成 3600 秒呢?问题有所缓解,但并未根治:只不过是换成 1 秒内只要有人访问,但无论实际访问人数是多少,它都只算是一次实验成功。
要根治这个问题,就需要将 1 小时无限粒度切分。换句话说,二项分布所研究的问题是离散的,泊松分布所研究的问题是连续的,这也是高等数学相对初等数学的一个本质区别:高等数学研究连续的变化。

5.4 二项分布的极限形式

现在将 1 小时切分成 n 份间隔,n 趋向于无穷大。则有,在每份间隔上,实验成功的概率 P 为:
从抛硬币到泊松分布
不妨记 E(x) 为 u,则:
从抛硬币到泊松分布
n 无穷大,P 无穷小。
“泊松分布是二项分布的一种极限形式”。行文至此,这句话是不是好理解多了?
此时再代入二项分布的公式,有:
从抛硬币到泊松分布
上面的公式略显 ugly,化简一下(也就是泊松分布的概率分布公式):
从抛硬币到泊松分布
具体的化简过程就不贴了,理解了就好。

5.5 本质

从上一节看出,当 n 趋向于无穷大时,P 趋向于无穷小。
所以泊松分布本质上是在描述极小概率事件的概率分布。

原文始发于微信公众号(窗有老梅):从抛硬币到泊松分布

版权声明:admin 发表于 2023年4月11日 上午8:53。
转载请注明:从抛硬币到泊松分布 | CTF导航

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...