大数定律(英文:Law of large numbers)又称大数法则,是一种统计学中的极限定律,指的是在大量重复试验中一个随机事件出现的频率在某个固定数的附近摆动,即所谓的“频率稳定性”。数学语言表示为:若 是随机变量序列,令。如果存在这样的一个常数序列,对任意的,恒有即,则称序列服从大数定律。

大数定律从长期实践中发展而来,人们很早就意识到“频率稳定性”的现象但一直没有理论上的说明。意大利数学家吉罗拉莫·卡丹诺(英文:Gerolamo Cardano)在他的《机遇博弈》(英文:The Book of Games of Chance)中最早写下了这个现象,瑞士数学家雅各布·伯努利(德语:Jakob Bernoulli)在他的著作《推测术》(德语:Ars Conjectandi)中首次证明了次伯努利试验下的大数定律。法国数学家西莫恩·泊松(法语:Simeon-Denis Poisson)首次提出了“大数定律”这一名称,并证明了泊松大数定律。而后有众多数学家都对大数定律的建设做出了贡献。包括俄罗斯数学家切比雪夫(英文:Pafnuty Lvovich Chebyshev),法国数学家埃米尔·博雷尔(法语:Émile Borel),苏联数学家亚历山大·辛钦(英文:Aleksandr Yakovlevich Khinchin),俄国数学家安德烈·马尔科夫(英文:Andrey Markov),俄国数学家安德雷·科尔莫戈罗夫(英文:Andrey Kolmogorov)等。

大数定律根据随机变量的收敛性分为弱大数定律和强大数定律。前者是依概率收敛意义下的大数定律,后者是以概率1收敛意义下的大数定律。弱大数定律包括伯努利大数定律、泊松大数定律、切比雪夫大数定律、马尔科夫大数定律、辛钦大数定律等,强大数定律包括博雷尔大数定律、科尔莫戈罗夫大数定律等。如不加说明,大数定律通常指的是弱大数定律。

大数定律应用广泛。生活中常用“频率稳定性”的思想用概率估计频率。数学上的蒙特卡罗方法成为了求积分的经典方法。经济学上保险业,银行管理、贷款等服务均有大数定律的应用。统计物理中在多粒子组成的宏观体系内的计算也有大数定律作理论基础。

定义

弱大数定律

弱大数定律是依概率收敛意义下的大数定律。一般提到大数定律的时候默认提到的是弱大数定律。先介绍依概率收敛:

如果对任意的成立,则称依概率收敛于,并记为。

弱大数定律(英文:Weak law of large numbers):若 是随机变量序列,令

如果存在这样的一个常数序列,对任意的,恒有,则称序列服从弱大数定律。

强大数定律

强大数定律是以概率1收敛意义下的大数定律。先介绍以概率1收敛:

若是随机变量,若,则称以概率1收敛于,又称几乎处处收敛于,记为。

强大数定律(英文:Strong law of large numbers):设是独立随机变量序列,若,则称它满足强大数定律。

历史

人们在长期实践中发现,虽然个别随机事件在某次试验中既可以出现也可以不出现,但是在大量重复试验中却呈现出明显的规律性,即一个随机事件出现的频率在某个固定数的附近摆动,这就是所谓“频率稳定性”。对于这点,很久以来都没有理论上的说明。大约1564年,意大利数学家吉罗拉莫·卡丹诺(英文:Gerolamo Cardano)在他的《机遇博弈》(英文:The Book of Games of Chance)中不加证明地指出经验统计的准确性往往会随着试验次数的增加而提高。瑞士数学家雅各布·伯努利德语:Jakob Bernoulli)在他的著作《推测术》(德语:Ars Conjectandi)中首次证明了次伯努利试验下的大数定律——当时还未曾有大数定律的说法,伯努利试图证明的是在次伯努利试验中用频率估计概率可以达到事实上的准确性。伯努利的侄子尼古拉一世·伯努利(德语:Nikolaus I. Bernoulli)和法国数学家亚伯拉罕·棣莫弗法语:Abraham de Moivre)对证明进行了优化。

1837年,法国数学家西莫恩·泊松(法语:Simeon-Denis Poisson)在他的《刑事和民事判决可能性研究》(法语:Recherches sur la probabilité des jugements en matière criminelle et en matière civile)中首次提出了大数定律的名称,并推广了伯努利大数定律,即泊松大数定律。而后有众多数学家都对大数定律的建设做出了贡献。包括俄罗斯数学家切比雪夫(英文:Pafnuty Lvovich Chebyshev),法国数学家埃米尔·博雷尔法语:Émile Borel),苏联数学家亚历山大·辛钦(英文:Aleksandr Yakovlevich Khinchin),俄国数学家安德烈·马尔科夫(英文:Andrey Markov),俄国数学家安德雷·科尔莫戈罗夫(英文:Andrey Kolmogorov)等。博雷尔于1909年证明博雷尔强大数定律。1928年辛钦提出了强大数定律的名称并证明了辛钦大数定律。

举例

例1

一个公平的掷硬币是一个伯努利试验。当一个公平的硬币被投掷一次时,结果是正面的理论概率等于 。因此,根据大数定律,在大量的硬币翻转中,正面的比例应该大致为。当n接近无穷大时,在n次翻转后正面的比例几乎肯定会收敛到。这就是频率稳定到概率的含义。

例2

要估计某种产品的不合格率则可以才能从该种产品中随机抽取件。当很大时,这件产品中的不合格品的比例可作为不合格率的估计值。这便是大数定律在其中的作用。

例3

本福特定律(英文:Benford's law):它描述的是在一堆从实际生活得出的纯随机数据中,为首数字出现的频率稳定等于某个概率。比如十进制下,以1为首位数字的数的出现频率约为30%,以9为首位数字的数的出现频率约为4%。这个定律可以用来揭露数据造假,比如华盛顿邮报曾引用该定律声称2009年伊朗总统大选中有造假情况,因为数字5和7出现的频率太少。这个定律也用到了频率稳定到概率的含义。

分类

为方便理解,这里先给出随机变量、分布、独立的定义。

随机变量:用来表示随机现象结果的变量称为随机变量,一般用来表示。随机变量的严格定义为:

设是定义于概率空间上的单值实函数,如果对于直线上任一博雷尔点集,有

则称为随机变量,而称为随机变量的概率分布。称为随机变量的分布函数。

设为个随机变量,若对于任意的成立

则称是相互独立的。

弱大数定律

伯努利大数定律

伯努利大数定律(英文:Bernoulli's law of large numbers):设是次伯努利试验中事件出现的次数,而是事件在每次试验中出现的概率,则对任意,都有

证明

这里先给出切比雪夫总和不等式及其证明。

切比雪夫不等式(英文:Chebyshev 不等式):设随机变量的数学期望和方差都存在,则对任意常数,有

切比雪夫总和不等式的证明:设是一个连续随机变量,其密度函数为。记,我们有

由此式知切比雪夫总和不等式对连续随机变量成立,对离散随机变量亦可类似进行证明。

伯努利大数定律可由切比雪夫不等式直接加以证明:

,趋于无穷则右式趋于0,得证。

泊松大数定律

泊松大数定律(英文:西莫恩·泊松's law of large numbers):如果在一个独立试验序列中,事件在第次试验中出现的概率等于,以记在前次试验中事件出现的次数,则对任意,都有

证明

证明过程需要用到即将介绍的切比雪夫大数定律。定义为第次试验中事件出现的次数,则的期望和方差满足:

再用切比雪夫大数定律即可得到泊松大数定律。

切比雪夫大数定律

切比雪夫大数定律(英文:Chebyshev's law of large numbers):设是由两两不相关的随机变量所构成的序列,每一随机变量都有有限的方差,并且它们有公共上界

则对任意的,皆有

证明

因为两两不相关,故。再由切比雪夫总和不等式得到

所以。于是当时有,定律得证。

伯努利大数定律和泊松大数定律均是切比雪夫大数定律的特例。

马尔科夫大数定律

马尔科夫大数定律(英文:Markov law of large numbers):对于随机变量序列,若,则对任意,皆有

证明

注意切比雪夫大数定律的证明中只需即可满足不等式证明,而这正是马尔科夫大数定律中的条件。也称为马尔科夫条件。

辛钦大数定律

辛钦大数定律(英文:Khinchin’s law of large numbers):设是相互独立的随机变量序列,它们服从相同的分布,且具有有限的数学期望,则对任意的,有

证明

由于具有相同的分布,故有同一特征函数,设为,因为数学期望存在,故可展开成

而的特征函数为,对于固定的,

极限函数是连续函数,它是退化分布所对应的特征函数,由逆极限定理知的分布函数弱收敛于,从而知依概率收敛于常数,从而定理得证。

伯努利大数定律是辛钦大数定律的特殊情况。

强大数定律

博雷尔强大数定律

博雷尔强大数定律(英文:Borrell's strong law of large numbers)设是事件在次独立试验中的出现次数,在每次试验中事件出现的概率均为,那么当时

证明

先给出博雷尔-康特立引理(英文:Borel-Cantelli 引理):

(1)若随机事件序列满足则

(2)若是相互独立的随机事件序列,则成立的充分必要条件为或。

以概率1收敛于的定义也可以表达为:对任意的,成立,若记,则上式可写成。根据博雷尔-康特立引理,只需证明级数对任意都收敛即可。将表示成独立雅各布·伯努利0-1变量之和,从而

。所以

注意到各的独立性及,因此上面的和式中只有及的项才不等于0,显然,。前者的项数有项,后者有项,因此,。

由于,从而,从而在时趋于0,得证。

科尔莫戈罗夫强大数定律

随机变量独立情况

科尔莫戈罗夫强大数定律(英文:安德雷·柯尔莫哥洛夫's strong law of large numbers)设,是独立随机变量序列,且,则成立

证明

先给出证明中需要的噶依克-瑞尼不等式。

噶依克-瑞尼不等式(英文:Hájek-Rényi inequality):若是独立随机变量序列,,而是一列正的非增常数序列,则对任意正整数及,均有

在噶依克-瑞尼不等式中,令,可以得到

由概率的连续性,

因为,从而。从而定理成立。

随机变量独立同分布情况

设是相互独立同分布的随机变量序列,则成立的充要条件是存在且等于

证明

若的分布函数为,我们来证明不等式

事实上,,因此

现在有

以及

从而不等式成立。这个不等式说明的充要条件为。

记,若,这里是有限数,则

这样一来,事件发生无穷多次的概率为0,因此注意到的独立性,并利用博雷尔-康特立引理可知

。从而,这是显然有,这样,我们已证得必要性。

下证充分性。使用截尾法,令。先验证满足科尔莫戈罗夫强大数定律条件。以记的分布函数,则

由于

故,因此

因为,显然,因此,由于

为证定理成立,只需再证。然而

由博雷尔-康特立引理知,以概率1有,只对有限个成立。

因此。这样,定理的证明已经完成。

局限性

下面分四个方面举例说明大数定律不成立的情况。

仅满足独立性

设是相互独立的随机变量序列,且满足,则不满足大数定律。

独立同分布

1.设独立同分布,若其分布函数为,则不满足大数定律。这个分布也叫作标准柯西分布(英文:Standard Cauchy distribution)。柯西分布都不服从大数定律。因为尾端数据过大,柯西分布本身没有均值和方差

2.若有有限的方差:,且令,那么不服从大数定律。

不独立但同分布

设子A有四个红面和两个白面,而骰子B有两个红面和四个白面。掷一个硬币,若出现正面,接着就连续掷骰子A;若出现反面,就掷骰子B。令,则不服从大数定律。

其他

设是随机变量序列,令,且,(均为大于0的常数),那么不服从大数定律。

大数定律成立的充要条件

这里再给出一个大数定律成立的充要条件:

设是任何随机变量序列,,并且记,则随机变量序列满足大数定律的一个充要条件是

相关概念

四种收敛的关系

随机变量序列一共四种常见的收敛性,分别为依分布收敛。依概率收敛,阶收敛,以概率1收敛。这里一并给出定义并给出推导关系。

依分布收敛

设随机变量的分布函数分别为,如果,则称则称依分布收敛于,并记为。

的意思是分布函数列弱收敛于,即在的每一连续点上都有。

依概率收敛

如果对任意的成立,则称依概率收敛于,并记为。

r阶收敛

设对随机变量及有,其中为常数,如果,则称阶收敛于,并记为。时也称均方收敛。

以概率1收敛

若是随机变量,若,则称以概率1收敛于,又称几乎处处收敛于,记为。

关系

依概率收敛推出依分布收敛

证明

因为对有

所以我们有。如果依概率收敛于,则

,因而有

同理可证对成立。所以对,有

如果是的连续点,则令趋于可得。定理证毕。

依概率收敛和依分布收敛等价情况

设是常数,则

证明

由关系1证明可知只需证明由依分布收敛于常数可推出依概率收敛于常数。事实上,对任意的,

得证。

r阶收敛推出依概率收敛

证明

先证对于任意,成立。

事实上,若以记的分布函数,则可得

从而阶收敛可推出依概率收敛,得证。

以概率1收敛推出依概率收敛

证明

以概率1收敛于的定义也可以表达为:对任意的,成立。利用概率的连续性可知,等价于。

根据德摩根定理又知等价于。

由于,从而,得证。

大数定律和中心极限定理的关系

大数定律和中心极限定理同为数理统计学中的极限定理。大数定律讨论的是在什么条件下,随机变量序列的算数平均值依概率收敛到其均值的算术平均。中心极限定理讨论的是在什么条件下,独立随机变量和的分布函数会收敛于正态分布。有随机变量独立同分布下的中心极限定理,也有独立不同分布下的中心极限定理。下面给出独立同分布下的林德伯格-莱维中心极限定理。

林德伯格-莱维中心极限定理(英文:Lindbergh-Levy central 函数极限 theorem):设是独立同分布的随机变量序列,且存在,若记,则对任意实数,有

二者的关系通常是不好确定的。但是,如果独立同分布,且方差大于0小于无穷,则大数定律与中心极限定理均成立。若为独立随机变量序列,且服从中心极限定理,要使它满足大数定律,必须且只需(的无穷小)

应用

基础数学

蒙特卡罗方法

蒙特卡洛方法(英文:Monte Carlo method)是一种随机模拟的计算方案,以积分计算为代表。

比如计算定积分可以任取一列相互独立的、都具有中均匀分布随机变量,则也是一列相互独立相同分布的随机变量,而且。既然,因此只要能求得,便能得到的数值。应用大数定律,因为,从而只需要能生成随机变量序列就能对积分进行数值计算。而这正是计算机的应用。

矩估计的相合性

假设总体的均值未知,通常的做法是对进行次独立重复观察,得到样本,并以它们的平均值作为的估计量,这样做法的依据之一是依辛钦大数定律应有。这个性质在数理统计学中称为相合性。对阶矩也成立。

经济学

大数定律在经济学中有着很高的重要性。大数定律是保险财政稳定性重要的理论基础。关于保险金的赔偿具实是符合大数定律的,因为现实中每个人的保费足不同的,但是因为投保的基数很大,所以根据大数定律,每个投保户的平均赔偿金额将会稳定在某一数值附近。大数定律在保险学上的应用包括保费的厘定,以及保险金的赔偿等等。大数定律也可以计算保险单位数,求出被保险单位的数量增加到多少才能符合保险公司财政稳定性的要求。大数定律也对小微企业贷款问题有所帮助。大数定律可以让银行等金融服务提供者研究小微企业及其所处行特点并进行系统性的规划,减少系统风险性。

统计物理

统计物理常见的模型是由多粒子组成的宏观体系,在原则上,非统计的预测是不可能的。因为在经典描述中,对于一个体系的唯一预测将要求直到同一时刻每个粒子的位置和速度,这种信息是不可能得到的。因此概率统计在其中扮演着重要角色,这其中,大数定律对均值和概率的计算起着理论上的支持。比如计算自旋体系平均值和理想气体中分子的分布。

生产生活

生活中用到最多的是用概率估计频率。因为大数定律将频率稳定到概率,所以当生活中的样本数足够大时可以通过计算该问题在数学上的概率去估计它发生的概率。比如扔1000次硬币估计正面向上的次数,并不一定非要扔1000次,而是可以直接得出500的结论。

参考资料

Earliest Known Uses of Some of the Words of Mathematics (L).Mactutor.2023-09-05

The Devil Is in the Digits: Evidence That Iran's Election Was Rigged.Washingtonpost.2023-09-04