大数定律与中心极限定理

参考资料

引入

概率论的两个核心定理：

大数定律：大量重复试验下，频率稳定于概率、样本均值稳定于期望。
中心极限定理：大量独立随机变量之和（无论原分布如何）近似 正态分布。

它们构成了 样本反推总体 的合法性，是统计推断的理论基石。

切比雪夫不等式

对任意 $\varepsilon>0$ ：

P(|X-E(X)|\ge \varepsilon)\le\frac{D(X)}{\varepsilon^2}

含义：方差越小， $X$ 越集中在 $E(X)$ 附近。

提示

这是 不依赖具体分布 的通用界。代价是界比较松——知道分布时通常有更紧的估计。

大数定律

依概率收敛

随机变量列 $X_n$ 依概率收敛于 $X$ ，记为 $X_n\xrightarrow{P}X$ ，定义为：

\forall \varepsilon>0,\,\lim_{n\to\infty}P(|X_n-X|\ge\varepsilon)=0

切比雪夫大数定律

设 $X_1,X_2,\dots$ 两两不相关，方差有共同上界 $D(X_i)\le c$ ，则：

\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}E(X_i)\xrightarrow{P}0

辛钦大数定律

设 $X_1,X_2,\dots$ 独立同分布（i.i.d.）， $E(X_i)=\mu$ ，则：

\bar X_n=\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}\mu

含义：样本均值收敛于总体期望。

伯努利大数定律

$n$ 次独立重复试验中事件 $A$ 发生的频率 $f_n$ ，则：

f_n\xrightarrow{P}p

含义：频率收敛于概率——这是「用频率估计概率」的理论依据。

中心极限定理

独立同分布的中心极限定理（林德伯格-列维）

设 $X_1,X_2,\dots$ i.i.d.， $E(X_i)=\mu$ ， $D(X_i)=\sigma^2>0$ ，则当 $n$ 充分大时：

\frac{\sum_{i=1}^{n}X_i-n\mu}{\sqrt n\sigma}\xrightarrow{d}N(0,1)

或者等价表述：

\bar X_n\xrightarrow{d}N\!\left(\mu,\frac{\sigma^2}{n}\right)

棣莫弗-拉普拉斯定理

二项分布的正态近似： $X\sim B(n,p)$ ，则当 $n$ 充分大时：

\frac{X-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1)

工程上通常以 $np(1-p)\ge 5$ 作为近似阈值。

提示

中心极限定理是 正态分布无处不在 的根本原因：身高、考试成绩、测量误差……只要是大量独立小因素的累加，结果就近似正态。

收敛关系

随机变量列的几种收敛：

\text{几乎处处收敛}\Rightarrow\text{依概率收敛}\Rightarrow\text{依分布收敛}

反向一般不成立。本科阶段重点掌握 依概率收敛（大数定律）与 依分布收敛（中心极限定理）。

参考资料​

引入​

切比雪夫不等式​

大数定律​

依概率收敛​

切比雪夫大数定律​

辛钦大数定律​

伯努利大数定律​

中心极限定理​

独立同分布的中心极限定理（林德伯格-列维）​

棣莫弗-拉普拉斯定理​

收敛关系​