跳到主要内容

数理统计

参考资料

引入

概率论 是「已知分布、推断样本」;数理统计 是反过来「已知样本、推断分布」。

两大基本任务:

  • 参数估计:用样本估计未知参数。
  • 假设检验:用样本判断关于总体的命题是否成立。

基本概念

总体与样本

  • 总体 XX:研究对象的全体,由其分布描述。
  • 样本 X1,,XnX_1,\dots,X_n:从总体独立同分布抽取的 nn 个观测值。
  • 样本容量nn

统计量

样本的 函数 T(X1,,Xn)T(X_1,\dots,X_n)(不含未知参数)。常见统计量:

名称定义
样本均值Xˉ=1ni=1nXi\bar X=\dfrac{1}{n}\sum_{i=1}^{n}X_i
样本方差S2=1n1i=1n(XiXˉ)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2
样本标准差S=S2S=\sqrt{S^2}
kk 阶样本原点矩Ak=1ni=1nXikA_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k
kk 阶样本中心矩Bk=1ni=1n(XiXˉ)kB_k=\dfrac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k
提示

样本方差分母是 n1n-1 而不是 nn,这是为了让 S2S^2σ2\sigma^2无偏估计——这一点详见参数估计。

三大抽样分布

X1,,XnX_1,\dots,X_n 来自 N(0,1)N(0,1)

χ2\chi^2 分布

χ2=i=1nXi2χ2(n)\chi^2=\sum_{i=1}^{n}X_i^2\sim\chi^2(n)

nn自由度E(χ2)=nE(\chi^2)=nD(χ2)=2nD(\chi^2)=2n

tt 分布(学生氏分布)

XN(0,1)X\sim N(0,1)Yχ2(n)Y\sim\chi^2(n)X,YX,Y 独立,则:

T=XY/nt(n)T=\frac{X}{\sqrt{Y/n}}\sim t(n)

tt 分布关于 00 对称,nn\to\infty 时趋于 N(0,1)N(0,1)

FF 分布

Uχ2(m)U\sim\chi^2(m)Vχ2(n)V\sim\chi^2(n),独立,则:

F=U/mV/nF(m,n)F=\frac{U/m}{V/n}\sim F(m,n)

正态总体的抽样分布

X1,,XnX_1,\dots,X_n i.i.d. N(μ,σ2)\sim N(\mu,\sigma^2),则:

XˉN ⁣(μ,σ2n),(n1)S2σ2χ2(n1)\bar X\sim N\!\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

Xˉ\bar XS2S^2 相互独立

XˉμS/nt(n1)\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)

参数估计

点估计

用一个数估计未知参数。两大方法:

方法思想
矩估计用样本矩去估计总体矩,列方程求参数
极大似然估计选使 样本观测值出现概率最大 的参数值

估计量的评价

  • 无偏性E(θ^)=θE(\hat\theta)=\theta
  • 有效性:在无偏估计中方差最小。
  • 一致性θ^Pθ\hat\theta\xrightarrow{P}\theta(依概率收敛)。

区间估计

给出参数的 置信区间 [θ^1,θ^2][\hat\theta_1,\hat\theta_2],使:

P(θ^1θθ^2)=1αP(\hat\theta_1\le\theta\le\hat\theta_2)=1-\alpha

1α1-\alpha 称为 置信水平(常取 0.950.950.990.99)。

正态总体均值 μ\mu 的置信区间(方差未知):

[XˉSntα/2(n1),Xˉ+Sntα/2(n1)]\left[\bar X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\,\bar X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1)\right]

假设检验

基本思路

  1. 提出 原假设 H0H_0备择假设 H1H_1
  2. 构造合适的 检验统计量
  3. 给定 显著性水平 α\alpha,确定 拒绝域
  4. 由样本计算统计量,判断是否落入拒绝域;若落入则拒绝 H0H_0

两类错误

H0H_0 为真H0H_0 为假
拒绝 H0H_0第一类错误(弃真),概率 α\alpha判断正确
接受 H0H_0判断正确第二类错误(取伪),概率 β\beta

α\alpha 越小,越「保守」(不轻易拒绝 H0H_0),但 β\beta 越大。

正态总体均值检验

条件统计量服从
ZZ 检验σ2\sigma^2 已知Z=Xˉμ0σ/nZ=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}N(0,1)N(0,1)
tt 检验σ2\sigma^2 未知T=Xˉμ0S/nT=\dfrac{\bar X-\mu_0}{S/\sqrt n}t(n1)t(n-1)

方差检验用 χ2\chi^2 分布,两总体方差比较用 FF 分布。