Skip to main content

随机变量与分布

参考资料

引入

随机变量(RV)把 随机事件 数值化:定义在样本空间上的 实值函数 X:ΩRX:\Omega\to\mathbb{R}

研究随机变量的关键是它的 分布——它取各个值的「概率规律」。

分布函数

对任意 xRx\in\mathbb{R}

F(x)=P(Xx)F(x)=P(X\le x)

称为 累积分布函数(CDF)。性质:

  • 单调不减、右连续。
  • F()=0F(-\infty)=0F(+)=1F(+\infty)=1
  • P(a<Xb)=F(b)F(a)P(a<X\le b)=F(b)-F(a)

离散型随机变量

取值 可列,由 分布列(PMF)pi=P(X=xi)p_i=P(X=x_i) 确定,满足 pi=1\sum p_i=1

常见离散分布

分布记号分布列含义
0-1 分布B(1,p)B(1,p)P(X=1)=p,P(X=0)=1pP(X=1)=p,P(X=0)=1-p单次伯努利试验
二项分布B(n,p)B(n,p)P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}nn 次独立成功次数
泊松分布P(λ)P(\lambda)P(X=k)=λkk!eλP(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda}单位时间事件发生次数
几何分布G(p)G(p)P(X=k)=(1p)k1pP(X=k)=(1-p)^{k-1}p首次成功所需次数
超几何分布P(X=k)=(Mk)(NMnk)(Nn)P(X=k)=\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}不放回抽样
tip

二项→泊松:当 n,p0n\to\infty,p\to 0npλnp\to\lambda 时,B(n,p)B(n,p) 趋于 P(λ)P(\lambda)。 工程上常以 n20,p0.05n\ge 20,p\le 0.05 作为近似阈值。

连续型随机变量

存在 概率密度函数(PDF)f(x)0f(x)\ge 0 使:

F(x)=xf(t)dt,+f(x)dx=1F(x)=\int_{-\infty}^{x}f(t)\,\mathrm{d}t,\quad \int_{-\infty}^{+\infty}f(x)\,\mathrm{d}x=1

对单点 P(X=a)=0P(X=a)=0;区间概率:

P(a<Xb)=abf(x)dxP(a<X\le b)=\int_a^b f(x)\,\mathrm{d}x

ff 连续处 F(x)=f(x)F'(x)=f(x)

常见连续分布

分布记号密度
均匀分布U(a,b)U(a,b)f(x)=1ba(axb)f(x)=\dfrac{1}{b-a}\,(a\le x\le b)
指数分布E(λ)E(\lambda)f(x)=λeλx(x0)f(x)=\lambda e^{-\lambda x}\,(x\ge 0)
正态分布N(μ,σ2)N(\mu,\sigma^2)f(x)=12πσexp ⁣((xμ)22σ2)f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)

标准正态分布

ZN(0,1)Z\sim N(0,1),密度记作 φ(z)\varphi(z),分布函数记作 Φ(z)\Phi(z)

标准化XN(μ,σ2)Z=XμσN(0,1)X\sim N(\mu,\sigma^2)\Rightarrow Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)

3σ3\sigma 原则

P(Xμ<σ)0.6827,P(Xμ<2σ)0.9545,P(Xμ<3σ)0.9973P(|X-\mu|<\sigma)\approx 0.6827,\,P(|X-\mu|<2\sigma)\approx 0.9545,\,P(|X-\mu|<3\sigma)\approx 0.9973

随机变量的函数

Y=g(X)Y=g(X),求 YY 的分布。

离散情形

P(Y=yk)=g(xi)=ykP(X=xi)P(Y=y_k)=\sum_{g(x_i)=y_k}P(X=x_i)

连续情形(单调可导)

gg 严格单调且可导:

fY(y)=fX(g1(y))ddyg1(y)f_Y(y)=f_X(g^{-1}(y))\cdot\left|\frac{\mathrm{d}}{\mathrm{d}y}g^{-1}(y)\right|

多维随机变量

联合分布

二维离散:pij=P(X=xi,Y=yj)p_{ij}=P(X=x_i,Y=y_j)

二维连续:联合密度 f(x,y)0f(x,y)\ge 0 满足 f=1\iint f=1

P((X,Y)D)=Df(x,y)dxdyP((X,Y)\in D)=\iint_D f(x,y)\,\mathrm{d}x\,\mathrm{d}y

边缘分布

fX(x)=+f(x,y)dy,fY(y)=+f(x,y)dxf_X(x)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}y,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\,\mathrm{d}x

条件分布

fYX(yx)=f(x,y)fX(x)(fX(x)>0)f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)}\,(f_X(x)>0)

独立性

X,YX,Y 独立     F(x,y)=FX(x)FY(y)    f(x,y)=fX(x)fY(y)\iff F(x,y)=F_X(x)F_Y(y)\iff f(x,y)=f_X(x)f_Y(y)