随机事件与概率

参考资料

引入

概率论 用数学语言刻画 不确定性。从「掷骰子」「抽卡」「天气预报」到机器学习的不确定性建模，本质都是 随机事件 与概率的运用。

基本概念

样本空间

随机试验所有可能结果的集合，记为 $\Omega$ 。每个结果 $\omega\in\Omega$ 称为 样本点。

随机事件

样本空间的子集 $A\subseteq\Omega$ ，是若干样本点的集合。

必然事件 $\Omega$
不可能事件 $\varnothing$
基本事件：仅含一个样本点 $\set{\omega}$

事件运算

参见集合：

概率论术语	集合论	含义
$A$ 与 $B$ 之和	$A\cup B$	$A,B$ 至少一个发生
$A$ 与 $B$ 之积	$A\cap B$ 或 $AB$	$A,B$ 同时发生
$A$ 与 $B$ 之差	$A\setminus B$	$A$ 发生而 $B$ 不发生
对立（互补）	$\bar A=\Omega\setminus A$	$A$ 不发生
互斥（不相容）	$A\cap B=\varnothing$	$A,B$ 不能同时发生

概率

公理化定义（Kolmogorov）

满足以下三条公理的实函数 $P:2^\Omega\to[0,1]$ ：

非负性： $P(A)\ge 0$ 。
规范性： $P(\Omega)=1$ 。
可列可加性： $A_1,A_2,\dots$ 两两互斥时， $P\!\left(\bigcup A_i\right)=\sum P(A_i)$ 。

基本性质

P(\varnothing)=0,\quad P(\bar A)=1-P(A)

P(A\cup B)=P(A)+P(B)-P(AB)

A\subseteq B\Rightarrow P(A)\le P(B)

古典概型

样本空间有限、各样本点 等可能 时：

P(A)=\frac{|A|}{|\Omega|}=\frac{A\text{ 中样本点数}}{\Omega\text{ 中样本点数}}

计算技巧依赖计数原理（排列、组合、容斥）。

几何概型

样本空间是 几何区域、概率正比于度量（长度/面积/体积）：

P(A)=\frac{m(A)}{m(\Omega)}

条件概率

若 $P(B)>0$ ，定义在 $B$ 发生条件下 $A$ 的概率：

P(A\mid B)=\frac{P(AB)}{P(B)}

乘法公式

P(AB)=P(A)P(B\mid A)=P(B)P(A\mid B)

推广：

P(A_1A_2\cdots A_n)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1A_2)\cdots P(A_n\mid A_1\cdots A_{n-1})

全概率公式

设 $B_1,\dots,B_n$ 为 $\Omega$ 的一个划分（两两互斥，并为 $\Omega$ ）：

P(A)=\sum_{i=1}^{n}P(B_i)P(A\mid B_i)

贝叶斯公式

P(B_k\mid A)=\frac{P(B_k)P(A\mid B_k)}{\sum_{i=1}^{n}P(B_i)P(A\mid B_i)}

tip

贝叶斯公式的直观理解：先验 $P(B_k)$ → 观察到证据 $A$ → 更新得后验 $P(B_k\mid A)$ 。这是现代统计学与机器学习的核心思想。

事件的独立性

$A,B$ 独立 $\iff P(AB)=P(A)P(B)\iff P(A\mid B)=P(A)$ 。

注意：独立 $\ne$ 互斥。互斥事件除非至少一个概率为 $0$ ，否则不独立。

多事件独立

$n$ 个事件 两两独立 是 相互独立 的 必要非充分 条件。相互独立要求所有 $2\le k\le n$ 个事件的乘积概率都等于各自概率之积。

伯努利试验

$n$ 次独立重复的「成功 / 失败」试验，每次成功概率为 $p$ ，则恰好 $k$ 次成功的概率为：

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

即 二项分布 $X\sim B(n,p)$ ，详见随机变量与分布。

参考资料​

引入​

基本概念​

样本空间​

随机事件​

事件运算​

概率​

公理化定义（Kolmogorov）​

基本性质​

古典概型​

几何概型​

条件概率​

乘法公式​

全概率公式​

贝叶斯公式​

事件的独立性​

多事件独立​

伯努利试验​