概率论 用数学语言刻画 不确定性。从「掷骰子」「抽卡」「天气预报」到机器学习的不确定性建模,本质都是 随机事件 与 概率 的运用。
随机试验所有可能结果的 集合,记为 Ω。每个结果 ω∈Ω 称为 样本点。
样本空间的 子集 A⊆Ω,是若干样本点的集合。
- 必然事件 Ω
- 不可能事件 ∅
- 基本事件:仅含一个样本点 {ω}
参见 集合:
| 概率论术语 | 集合论 | 含义 |
|---|
| A 与 B 之和 | A∪B | A,B 至少一个发生 |
| A 与 B 之积 | A∩B 或 AB | A,B 同时发生 |
| A 与 B 之差 | A∖B | A 发生而 B 不发生 |
| 对立(互补) | Aˉ=Ω∖A | A 不发生 |
| 互斥(不相容) | A∩B=∅ | A,B 不能同时发生 |
满足以下三条公理的实函数 P:2Ω→[0,1]:
- 非负性:P(A)≥0。
- 规范性:P(Ω)=1。
- 可列可加性:A1,A2,… 两两互斥时,P(⋃Ai)=∑P(Ai)。
P(∅)=0,P(Aˉ)=1−P(A)
P(A∪B)=P(A)+P(B)−P(AB)
A⊆B⇒P(A)≤P(B)
样本空间 有限、各样本点 等可能 时:
P(A)=∣Ω∣∣A∣=Ω 中样本点数A 中样本点数
计算技巧依赖 计数原理(排列、组合、容斥)。
样本空间是 几何区域、概率正比于 度量(长度/面积/体积):
P(A)=m(Ω)m(A)
若 P(B)>0,定义在 B 发生条件下 A 的概率:
P(A∣B)=P(B)P(AB)
P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
推广:
P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1⋯An−1)
设 B1,…,Bn 为 Ω 的一个 划分(两两互斥,并为 Ω):
P(A)=i=1∑nP(Bi)P(A∣Bi)
P(Bk∣A)=∑i=1nP(Bi)P(A∣Bi)P(Bk)P(A∣Bk)
贝叶斯公式的直观理解:先验 P(Bk) → 观察到证据 A → 更新得 后验 P(Bk∣A)。
这是现代统计学与机器学习的核心思想。
A,B 独立 ⟺P(AB)=P(A)P(B)⟺P(A∣B)=P(A)。
注意:独立 = 互斥。互斥事件除非至少一个概率为 0,否则不独立。
n 个事件 两两独立 是 相互独立 的 必要非充分 条件。相互独立要求所有 2≤k≤n 个事件的乘积概率都等于各自概率之积。
n 次独立重复的「成功 / 失败」试验,每次成功概率为 p,则恰好 k 次成功的概率为:
P(X=k)=(kn)pk(1−p)n−k
即 二项分布 X∼B(n,p),详见 随机变量与分布。