跳到主要内容

大数定律与中心极限定理

参考资料

引入

概率论的两个核心定理:

  • 大数定律:大量重复试验下,频率稳定于概率样本均值稳定于期望
  • 中心极限定理:大量独立随机变量之和(无论原分布如何)近似 正态分布

它们构成了 样本反推总体 的合法性,是 统计推断 的理论基石。

切比雪夫不等式

对任意 ε>0\varepsilon>0

P(XE(X)ε)D(X)ε2P(|X-E(X)|\ge \varepsilon)\le\frac{D(X)}{\varepsilon^2}

含义:方差越小,XX 越集中在 E(X)E(X) 附近。

提示

这是 不依赖具体分布 的通用界。代价是界比较松——知道分布时通常有更紧的估计。

大数定律

依概率收敛

随机变量列 XnX_n 依概率收敛于 XX,记为 XnPXX_n\xrightarrow{P}X,定义为:

ε>0,limnP(XnXε)=0\forall \varepsilon>0,\,\lim_{n\to\infty}P(|X_n-X|\ge\varepsilon)=0

切比雪夫大数定律

X1,X2,X_1,X_2,\dots 两两不相关,方差有共同上界 D(Xi)cD(X_i)\le c,则:

1ni=1nXi1ni=1nE(Xi)P0\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}E(X_i)\xrightarrow{P}0

辛钦大数定律

X1,X2,X_1,X_2,\dots 独立同分布(i.i.d.),E(Xi)=μE(X_i)=\mu,则:

Xˉn=1ni=1nXiPμ\bar X_n=\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}\mu

含义:样本均值收敛于总体期望

伯努利大数定律

nn 次独立重复试验中事件 AA 发生的频率 fnf_n,则:

fnPpf_n\xrightarrow{P}p

含义:频率收敛于概率——这是「用频率估计概率」的理论依据。

中心极限定理

独立同分布的中心极限定理(林德伯格-列维)

X1,X2,X_1,X_2,\dots i.i.d.,E(Xi)=μE(X_i)=\muD(Xi)=σ2>0D(X_i)=\sigma^2>0,则当 nn 充分大时:

i=1nXinμnσdN(0,1)\frac{\sum_{i=1}^{n}X_i-n\mu}{\sqrt n\sigma}\xrightarrow{d}N(0,1)

或者等价表述:

XˉndN ⁣(μ,σ2n)\bar X_n\xrightarrow{d}N\!\left(\mu,\frac{\sigma^2}{n}\right)

棣莫弗-拉普拉斯定理

二项分布的正态近似:XB(n,p)X\sim B(n,p),则当 nn 充分大时:

Xnpnp(1p)dN(0,1)\frac{X-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1)

工程上通常以 np(1p)5np(1-p)\ge 5 作为近似阈值。

提示

中心极限定理是 正态分布无处不在 的根本原因: 身高、考试成绩、测量误差……只要是大量独立小因素的累加,结果就近似正态。

收敛关系

随机变量列的几种收敛:

几乎处处收敛依概率收敛依分布收敛\text{几乎处处收敛}\Rightarrow\text{依概率收敛}\Rightarrow\text{依分布收敛}

反向一般不成立。本科阶段重点掌握 依概率收敛(大数定律)与 依分布收敛(中心极限定理)。