从抛硬币到泊松分布

密码学 1年前 (2023) admin

300 0 0

0. 目录

1. 垫话

2. 前言

3. 前置概念

3.1 概率分布

3.2 二项分布

3.3 伯努利过程

4. 二项分布

4.1 要素 & 问题

4.2 formula

4.3 intuition

4.4 conclusion

4.5 another interesting

5. 泊松分布

5.1 要素 & 问题

5.2 二项分布模拟求解

5.3 二项分布模拟求解的问题

5.4 二项分布的极限形式

5.5 本质

1. 垫话

“概率论与数理统计”是大二的课程，那时候已经不怎么翘课打魔兽了，算是大学学的比较好的一门课，期末 20 分钟交卷考了 94（当然这也有学校垃圾卷子简单的因素在里面）。但基本上也只是停留在公式流的层面，早就忘光光了。这其实也是我国教育，尤其是工科教育的问题：从来不跟你说清楚是什么、为什么以及能干什么，填鸭就完事了。

上次在 B 站刷到“小叶的灵魂自省” up 主，其本人在一所美国大学任教，讲统计学方面的知识，把泊松分布重新学习理解了一遍，于是有了本文，感谢 up 主。

2. 前言

本文从概率分布及伯努利过程的基本概念开始，以抛硬币实验入手讲解二项分布，最后推导出泊松分布。

3. 前置概念

3.1 概率分布

首先要回答清楚，什么是概率分布。

所谓概率分布，就是在某个多次重复的实验中，所有能观察到的实验结果的概率的统计，这个统计的具体形式可以是表，也可以是图像（是表还是图像不重要，它们只是同一数据的不同表现形式而已）。

当然，上面这个定义是我提出的，任何一本教科书上是找不到的。这个定义重在理解，而不在严谨性，如果都理解不了，光严谨有个 P 用。

3.2 二项分布

“实验”是研究概率分布的一个核心概念。

有一类特殊的实验，对于每一次单独的实验，其结果只有两种可能，不妨称这二者可能为“成功”和“失败”。研究这类实验概率分布的就是“二项分布”。

要研究一个具体的“二项分布”，就必须要做具体的实验。这个实验可以理解为一个“过程”，这个“过程”满足一定条件时，称为“伯努利过程”。而对“二项分布”的研究，必须要基于“伯努利过程”。

3.3 伯努利过程

一个伯努利过程满足如下条件：

这个过程包含 n 次实验。比如抛 n 次硬币。
每次实验只会有两种可能，成功或失败。比如抛一次硬币，要么正面要么反面，你可以把“正面”定义为“成功”，或者反之。
每次实验，成功的概率相同。比如每次抛硬币，正面的概率都是 50%。
每次实验之间是独立的。比如第 n 次抛硬币的结果，与第 n – 1 次抛硬币的结果无关。

4. 二项分布

4.1 要素 & 问题

很显然 n 次抛硬币的实验就是一个伯努利过程，其符合二项分布。我们以抛硬币为例讲解二项分布。

二项分布的要素非常简单：

实验的次数：抛 n 次硬币。
每次实验成功的概率：每次抛硬币，成功（不妨设“正面”结果为“成功”）的概率为 50%。

二项分布所要研究的问题：

在 n 次实验中，不同成功次数的概率分别是多少？具体来说，抛 3 次硬币，成功次数为 0 的概率是多少？次数为 1 的概率又是多少？以此类推。

4.2 formula

因为抛硬币太简单，大家也太熟悉，上面问题解的公式大家肯定也很熟悉：

其中：

表示出现 x 次成功的概率（也就是所要研究的问题）
P 为单次实验成功的概率。

公式不解释了，因为大家应该都懂。

4.3 intuition

当然套上一小节的公式，就可以解决问题了。但这里请忘掉公式，如果没有公式当如何求解？

没错，把所有可能出现的情况都罗列出来，然后分别统计（H 表示正面向上，T 表示反面向上）：

outcomes	x	P
HHH	3	1/8
TTT	0	1/8
HTT	1	1/8
THT	1	1/8
TTH	1	1/8
HHT	2	1/8
HTH	2	1/8
THH	2	1/8

上面的表格罗列了实验的所有可能，但其不可称为概率分布。因为概率分布研究的是唯一化的 x：

x	Pr
0	1/8
1	3/8
2	3/8
3	1/8

如果非要画成图的话：

4.4 conclusion

so, what is the intuition behind the formula?

实际上，公式中的

，表示的就是罗列出所有可能实验结果的情况下，出现“x 次成功”的实验结果会有多少种情况。从抛硬币到泊松分布

你也自然懂的。

4.5 another interesting

当 n 足够大时，可以使用正态分布来近似二项分布。用正态分布来近似的好处是公式计算会更简单。

5. 泊松分布

5.1 要素 & 问题

前面铺垫那么多，主要是为了讲泊松分布。

泊松分布研究的问题模型是：

已知一段固定长度时间内，某个实验成功次数的平均值（期望）是 n，请问在这段固定长度时间内，成功次数的概率分布是怎样的？

注意，相较二项分布，泊松分布问题的要素变了：

固定长度的时间。
成功次数的平均值（期望）。

我们把问题搞的具体点：

假设你有一个网站，已知 1 个小时内平均会有 100 个访问者（或者说，访问者人数的期望值是 100）。问，这一小时内，访问者有 1 个人的概率是多少？有 2 个人的概率是多少？以此类推。

5.2 二项分布模拟求解

如果把上面的问题转换一下，它其实是一个二项分布的问题：

将 1 个小时切分成 60 分钟，那么每一分钟内，有人访问的概率是 100 / 60，不妨记 100 为 E(x)（访问人数 x 的期望），则这个问题就转化成如下的二项分布问题：

每次实验成功的概率 P = E(x) / 60，进行 60 次实验，成功的次数为 x 的概率是多少？

二项分布的公式带一带问题似乎就解决了。

5.3 二项分布模拟求解的问题

但问题显然不可能这么简单，那么就要搞清楚，用二项分布去模拟求解泊松分布的问题在哪？

问题在于时间粒度的切分上。

如果你把 1 小时切分成 60 分钟，那么每 1 分钟内只要有人访问，而无论实际访问人数是多少（可以是 1 个人，也可以是 100 个人，还可以是 1000 个人），它都只算是一次实验成功。显然这是不合理的。

那么把 1 小时切分成 3600 秒呢？问题有所缓解，但并未根治：只不过是换成 1 秒内只要有人访问，但无论实际访问人数是多少，它都只算是一次实验成功。

要根治这个问题，就需要将 1 小时无限粒度切分。换句话说，二项分布所研究的问题是离散的，泊松分布所研究的问题是连续的，这也是高等数学相对初等数学的一个本质区别：高等数学研究连续的变化。

5.4 二项分布的极限形式

现在将 1 小时切分成 n 份间隔，n 趋向于无穷大。则有，在每份间隔上，实验成功的概率 P 为：

不妨记 E(x) 为 u，则：

n 无穷大，P 无穷小。

“泊松分布是二项分布的一种极限形式”。行文至此，这句话是不是好理解多了？

此时再代入二项分布的公式，有：

上面的公式略显 ugly，化简一下（也就是泊松分布的概率分布公式）：

具体的化简过程就不贴了，理解了就好。

5.5 本质

从上一节看出，当 n 趋向于无穷大时，P 趋向于无穷小。

所以泊松分布本质上是在描述极小概率事件的概率分布。

原文始发于微信公众号（窗有老梅）：从抛硬币到泊松分布

版权声明：admin 发表于 2023年4月11日上午8:53。
转载请注明：从抛硬币到泊松分布 | CTF导航

一文聊聊Linux Kernel的加密子系统【Crypto Subsystem】

admin

152

G.O.S.S.I.P 阅读推荐 2022-10-17 点亮信号

admin

281

论文分享｜Forward secure searchable encryption with keyed-block chain

admin

密码学｜TLS 1.2 协议（二）

admin

331

RSA相关的趣味数学题(7)

admin

密码学｜ 5.5 Pollard’s p Method

admin

379

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

从抛硬币到泊松分布

0. 目录

1. 垫话

2. 前言

3. 前置概念

3.1 概率分布

3.2 二项分布

3.3 伯努利过程

4. 二项分布

4.1 要素 & 问题

4.2 formula

4.3 intuition

4.4 conclusion

4.5 another interesting

5. 泊松分布

5.1 要素 & 问题

5.2 二项分布模拟求解

5.3 二项分布模拟求解的问题

5.4 二项分布的极限形式

5.5 本质

密码学｜ 6.2 有限域上的椭圆曲线

[论文分享]Fluid MPC: Secure MPC with Dynamic Participants

相关文章

暂无评论

相关文章

从抛硬币到泊松分布

0. 目录

1. 垫话

2. 前言

3. 前置概念

3.1 概率分布

3.2 二项分布

3.3 伯努利过程

4. 二项分布

4.1 要素 & 问题

4.2 formula

4.3 intuition

4.4 conclusion

4.5 another interesting

5. 泊松分布

5.1 要素 & 问题

5.2 二项分布模拟求解

5.3 二项分布模拟求解的问题

5.4 二项分布的极限形式

5.5 本质

密码学 ｜ 6.2 有限域上的椭圆曲线

[论文分享]Fluid MPC: Secure MPC with Dynamic Participants

相关文章

暂无评论

广告位

相关文章

密码学｜ 6.2 有限域上的椭圆曲线