随机变量与分布

参考资料

引入

随机变量（RV）把随机事件数值化：定义在样本空间上的 实值函数 $X:\Omega\to\mathbb{R}$ 。

研究随机变量的关键是它的分布——它取各个值的「概率规律」。

分布函数

对任意 $x\in\mathbb{R}$ ：

F(x)=P(X\le x)

称为 累积分布函数（CDF）。性质：

单调不减、右连续。
$F(-\infty)=0$ ， $F(+\infty)=1$ 。
$P(a<X\le b)=F(b)-F(a)$ 。

离散型随机变量

取值可列，由 分布列（PMF） $p_i=P(X=x_i)$ 确定，满足 $\sum p_i=1$ 。

常见离散分布

分布	记号	分布列	含义
0-1 分布	$B(1,p)$	$P(X=1)=p,P(X=0)=1-p$	单次伯努利试验
二项分布	$B(n,p)$	$P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$	$n$ 次独立成功次数
泊松分布	$P(\lambda)$	$P(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}$	单位时间事件发生次数
几何分布	$G(p)$	$P(X=k)=(1-p)^{k-1}p$	首次成功所需次数
超几何分布	—	$P(X=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$	不放回抽样

tip

二项→泊松：当 $n\to\infty,p\to 0$ 且 $np\to\lambda$ 时， $B(n,p)$ 趋于 $P(\lambda)$ 。工程上常以 $n\ge 20,p\le 0.05$ 作为近似阈值。

连续型随机变量

存在 概率密度函数（PDF） $f(x)\ge 0$ 使：

F(x)=\int_{-\infty}^{x}f(t)\,\mathrm{d}t,\quad \int_{-\infty}^{+\infty}f(x)\,\mathrm{d}x=1

对单点 $P(X=a)=0$ ；区间概率：

P(a<X\le b)=\int_a^b f(x)\,\mathrm{d}x

在 $f$ 连续处 $F'(x)=f(x)$ 。

常见连续分布

分布	记号	密度
均匀分布	$U(a,b)$	$f(x)=\dfrac{1}{b-a}\,(a\le x\le b)$
指数分布	$E(\lambda)$	$f(x)=\lambda e^{-\lambda x}\,(x\ge 0)$
正态分布	$N(\mu,\sigma^2)$	$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$

标准正态分布

$Z\sim N(0,1)$ ，密度记作 $\varphi(z)$ ，分布函数记作 $\Phi(z)$ 。

标准化： $X\sim N(\mu,\sigma^2)\Rightarrow Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)$ 。

$3\sigma$ 原则：

P(|X-\mu|<\sigma)\approx 0.6827,\,P(|X-\mu|<2\sigma)\approx 0.9545,\,P(|X-\mu|<3\sigma)\approx 0.9973

随机变量的函数

设 $Y=g(X)$ ，求 $Y$ 的分布。

离散情形

P(Y=y_k)=\sum_{g(x_i)=y_k}P(X=x_i)

连续情形（单调可导）

若 $g$ 严格单调且可导：

f_Y(y)=f_X(g^{-1}(y))\cdot\left|\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)\right|

多维随机变量

联合分布

二维离散： $p_{ij}=P(X=x_i,Y=y_j)$ 。

二维连续：联合密度 $f(x,y)\ge 0$ 满足 $\iint f=1$ ，

P((X,Y)\in D)=\iint_D f(x,y)\,\mathrm{d}x\,\mathrm{d}y

边缘分布

f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}y,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}x

条件分布

f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}\,(f_X(x)>0)

独立性

$X,Y$ 独立 $\iff F(x,y)=F_X(x)F_Y(y)\iff f(x,y)=f_X(x)f_Y(y)$ 。

参考资料​

引入​

分布函数​

离散型随机变量​

常见离散分布​

连续型随机变量​

常见连续分布​

标准正态分布​

随机变量的函数​

离散情形​

连续情形（单调可导）​

多维随机变量​

联合分布​

边缘分布​

条件分布​

独立性​