概率论的两个核心定理:
- 大数定律:大量重复试验下,频率稳定于概率、样本均值稳定于期望。
- 中心极限定理:大量独立随机变量之和(无论原分布如何)近似 正态分布。
它们构成了 样本反推总体 的合法性,是 统计推断 的理论基石。
对任意 ε>0:
P(∣X−E(X)∣≥ε)≤ε2D(X)
含义:方差越小,X 越集中在 E(X) 附近。
这是 不依赖具体分布 的通用界。代价是界比较松——知道分布时通常有更紧的估计。
随机变量列 Xn 依概率收敛于 X,记为 XnPX,定义为:
∀ε>0,n→∞limP(∣Xn−X∣≥ε)=0
设 X1,X2,… 两两不相关,方差有共同上界 D(Xi)≤c,则:
n1i=1∑nXi−n1i=1∑nE(Xi)P0
设 X1,X2,… 独立同分布(i.i.d.),E(Xi)=μ,则:
Xˉn=n1i=1∑nXiPμ
含义:样本均值收敛于总体期望。
n 次独立重复试验中事件 A 发生的频率 fn,则:
fnPp
含义:频率收敛于概率——这是「用频率估计概率」的理论依据。
设 X1,X2,… i.i.d.,E(Xi)=μ,D(Xi)=σ2>0,则当 n 充分大时:
nσ∑i=1nXi−nμdN(0,1)
或者等价表述:
XˉndN(μ,nσ2)
二项分布的正态近似:X∼B(n,p),则当 n 充分大时:
np(1−p)X−npdN(0,1)
工程上通常以 np(1−p)≥5 作为近似阈值。
中心极限定理是 正态分布无处不在 的根本原因:
身高、考试成绩、测量误差……只要是大量独立小因素的累加,结果就近似正态。
随机变量列的几种收敛:
几乎处处收敛⇒依概率收敛⇒依分布收敛
反向一般不成立。本科阶段重点掌握 依概率收敛(大数定律)与 依分布收敛(中心极限定理)。