概率是人类在生产生活中根据经验逐步建立起的一个概念, 从诞生到建立严格的理论体系经过了漫长的时间, 尽管在数学上概率已经有了完整的公理化体系, 但概率的物理本质仍然是一个深刻的问题, 在 Kolmogorov 公理化概率论体系建立之前曾经有人用频率来定义概率, 大致说法是当我们重复进行大量试验, 事件发生的频率将产生统计规律性, 例如抛硬币, 随着抛掷次数的增多, 正面朝上和反面朝上的次数占总抛掷次数的比例(即频率)都将慢慢接近于 1/2, 于是人们将频率所趋向于的数值定义为概率, 但这种定义方式有无法自圆其说的致命的漏洞, 因为频率是不固定的, 不进行无限次试验就无法完全地肯定频率的稳定性

频率与概率是本质上完全不相同的两个概念, 如果我们说一个事件发生的概率是 1/10, 那是否意味着进行 10 次重复试验, 事件就一定会发生? 答案当然是否定的, 理论上来说即便我们进行很多很多次试验, 所期待的事件也都有可能不发生, 从这个角度来说, 概率与频率与似乎有一道不可跨越的鸿沟, 本文将从形式化的角度深刻地讨论概率与频率之间的关系, 并给出一个简单的证明

9.1 事件的频率

我们将在相同的条件下重复地、相互独立地进行的随机试验称为独立重复试验, 为了问题的简化, 我们假设每次独立重复试验的结果只有两个: 发生与不发生(实际上这是伯努利试验), 若试验独立重复进行了 N 次, 则我们称之为 N 重独立重复试验, 那么频率 f 的定义如下:

其中 n 是在 N 次独立重复试验中, 事件发生的次数, 可以看到

9.2 马尔可夫不等式

马尔可夫不等式给出了非负随机变量不小于某正数的概率的上界, 为随机变量, 且 , a 它的表达式如下:

马尔可夫不等式的证明比较简单, 对 X 做分类讨论, 首先假设 X 是连续型随机变量, 根据数学期望的定义有

其中 的概率密度函数, 由于 和概率密度函数的非负性, 对于 , 有

对上面这个不等式做一下放缩, 即有

于是有

而若 是离散型随机变量, 与上面的思路相同, 都是对不等式放缩, 根据离散型随机变量数学期望的定义有

于是有

至此, 命题得证, 这里的结论我们将在下面用到

9.3 依概率收敛

收敛本身在极限的基础上定义的, 以数列为例, 对于数列 , , ..., 如果对于 , 总存在 , 使得当 时, 恒有 , 则称数列 收敛于 a

将概率引入到上面这个定义中, 便得到依概率收敛的定义, 仍然以数列为例, 对于数列 , , ..., 如果对于 , 总存在 , 使得当 时, 恒有 , 则称数列 依概率收敛于 a, 即

9.4 频率与概率的关系

在上面工作的基础上, 我们可以给出频率与概率的关系, 我们给定任意一组相互独立并服从同一分布的随机变量序列, 记为 , , ..., 由于它们服从同一分布, 因而数学期望都是相同的, 我们记数学期望为 , 则有

我们假定随机变量所服从的分布的方差是存在的(这里其实只需要期望存在即可, 方差不存在时需要使用随机变量的特征函数来证明, 我将在以后的博客中展开讨论特征函数, 这里我们假定方差存在是便于证明), 并将标准差记为 , 于是

利用我们在 9.2 中得到的结论, 对于任意整数 a 和 , 有

做平方, 以便引入方差, 有

将上面这个式子取反,

时, 根据夹逼准则, 有

由于 a 是任意整数, 所以上面这个式子的意义是当 n 充分大时, 随机变量的算术平均值与期望值在数轴上的距离可以任意小, 或换句话说, 当 n 充分大时, 随机变量的算术平均值依概率收敛到它的数学期望

9.5 结果的意义

上面我们从数量关系上证明了, 独立同分布的随机变量当变量数 n 充分大时, 它们的观测值的算术平均值依概率收敛到它们所服从的分布的数学期望, 在 9.1 中我们提到独立重复试验是在相同条件下进行的多次试验, 每次试验都是相互独立的, 并且都是在相同条件下进行的(即同分布), 所以我们刚刚得到的结论完全适用于独立重复试验, 这个结论实际上就是弱大数定律, 严格来说大数定律应该称之为大数定理, 仍然使用定律一词是约定俗成的, 大数定律从理论上严格建立起了频率与概率的关系, 即随着独立重复试验次数的增加, 事件发生的次数(即频率)将依概率收敛到它的数学期望, 对于每一次随机试验来说, 事件的结果看似自由, 它可以发生也可以不发生(具有偶然性), 但随着试验次数的增多, 一定会展现出统计规律性(具有必然性), 大数定律实际上在偶然与必然之间建立了连接的桥梁, 大数定律也是统计学的基础, 正是由于大数定律的存在, 我们才可以用样本去估计总体, 才可以做统计推断, 回到开头所讲的, 实际上在 Kolmogorov 之前, 大数定律是无法被证明的, 因为我们不可能去做无穷多次独立重复试验, 另外, 用频率去定义概率实际上就是默许了大数定律的存在, 因为你只有承认大数定律才会有频率的稳定性, 所以我们无法在用这种方式定义的概率基础之上再去证明大数定律, 而 Kolmogorov 开创性的工作在于他借鉴了几何学的思路, 从几条简单的公理出发(非负性、规范性、可列可加性), 演绎推导出整个概率论体系, 我们上面的所有证明也是依托于公理化概率论最简单的几条公设, 在这样的体系下, 大数定律就可以按照严格的逻辑推理而被证明, 大数定律是一个简单却又深刻的结论, 说它简单是因为它太普遍了, 以至于我们心里默认它就会成立, 说它深刻在于它打破了偶然与必然的鸿沟, 严格建立起了偶然与必然的联系, 借用陈希孺院士在《机会的数学》的一句话, 大数定律的重大意义在于它揭示了偶然性的作用而呈现的杂乱无章现象中的一种规律性, 或简单地讲, 在纷乱中找到了一种秩序