数理统计

参考资料

引入

概率论是「已知分布、推断样本」；数理统计 是反过来「已知样本、推断分布」。

两大基本任务：

参数估计：用样本估计未知参数。
假设检验：用样本判断关于总体的命题是否成立。

基本概念

总体与样本

总体 $X$ ：研究对象的全体，由其分布描述。
样本 $X_1,\dots,X_n$ ：从总体独立同分布抽取的 $n$ 个观测值。
样本容量： $n$ 。

统计量

样本的函数 $T(X_1,\dots,X_n)$ （不含未知参数）。常见统计量：

名称	定义
样本均值	$\bar X=\dfrac{1}{n}\sum_{i=1}^{n}X_i$
样本方差	$S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2$
样本标准差	$S=\sqrt{S^2}$
$k$ 阶样本原点矩	$A_k=\dfrac{1}{n}\sum_{i=1}^{n}X_i^k$
$k$ 阶样本中心矩	$B_k=\dfrac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k$

tip

样本方差分母是 $n-1$ 而不是 $n$ ，这是为了让 $S^2$ 是 $\sigma^2$ 的 无偏估计——这一点详见参数估计。

三大抽样分布

设 $X_1,\dots,X_n$ 来自 $N(0,1)$ 。

$\chi^2$ 分布

\chi^2=\sum_{i=1}^{n}X_i^2\sim\chi^2(n)

$n$ 为 自由度。 $E(\chi^2)=n$ ， $D(\chi^2)=2n$ 。

$t$ 分布（学生氏分布）

设 $X\sim N(0,1)$ ， $Y\sim\chi^2(n)$ ， $X,Y$ 独立，则：

T=\frac{X}{\sqrt{Y/n}}\sim t(n)

$t$ 分布关于 $0$ 对称， $n\to\infty$ 时趋于 $N(0,1)$ 。

$F$ 分布

设 $U\sim\chi^2(m)$ ， $V\sim\chi^2(n)$ ，独立，则：

F=\frac{U/m}{V/n}\sim F(m,n)

正态总体的抽样分布

设 $X_1,\dots,X_n$ i.i.d. $\sim N(\mu,\sigma^2)$ ，则：

\bar X\sim N\!\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

$\bar X$ 与 $S^2$ 相互独立。

\frac{\bar X-\mu}{S/\sqrt n}\sim t(n-1)

参数估计

点估计

用一个数估计未知参数。两大方法：

方法	思想
矩估计	用样本矩去估计总体矩，列方程求参数
极大似然估计	选使样本观测值出现概率最大的参数值

估计量的评价

无偏性： $E(\hat\theta)=\theta$ 。
有效性：在无偏估计中方差最小。
一致性： $\hat\theta\xrightarrow{P}\theta$ （依概率收敛）。

区间估计

给出参数的 置信区间 $[\hat\theta_1,\hat\theta_2]$ ，使：

P(\hat\theta_1\le\theta\le\hat\theta_2)=1-\alpha

$1-\alpha$ 称为 置信水平（常取 $0.95$ 或 $0.99$ ）。

正态总体均值 $\mu$ 的置信区间（方差未知）：

\left[\bar X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\,\bar X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1)\right]

假设检验

基本思路

提出 原假设 $H_0$ 与 备择假设 $H_1$ 。
构造合适的 检验统计量。
给定 显著性水平 $\alpha$ ，确定 拒绝域。
由样本计算统计量，判断是否落入拒绝域；若落入则拒绝 $H_0$ 。

两类错误

	$H_0$ 为真	$H_0$ 为假
拒绝 $H_0$	第一类错误（弃真），概率 $\alpha$	判断正确
接受 $H_0$	判断正确	第二类错误（取伪），概率 $\beta$

$\alpha$ 越小，越「保守」（不轻易拒绝 $H_0$ ），但 $\beta$ 越大。

正态总体均值检验

	条件	统计量	服从
$Z$ 检验	$\sigma^2$ 已知	$Z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}$	$N(0,1)$
$t$ 检验	$\sigma^2$ 未知	$T=\dfrac{\bar X-\mu_0}{S/\sqrt n}$	$t(n-1)$

方差检验用 $\chi^2$ 分布，两总体方差比较用 $F$ 分布。

参考资料​

引入​

基本概念​

总体与样本​

统计量​

三大抽样分布​

χ2\chi^2χ2 分布​

ttt 分布（学生氏分布）​

FFF 分布​

正态总体的抽样分布​

参数估计​

点估计​

估计量的评价​

区间估计​

假设检验​

基本思路​

两类错误​

正态总体均值检验​