跳到主要内容

统计

统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。

参考资料

统计量

假设有一组样本容量为 nn 的样本 x1,x2,,xnx_1,x_2,\dots,x_n

平均数

统计学中的 平均数 一般指 算术平均数,即样本的总和除以样本的数量,通常记作 xˉ\bar{x}

xˉ=1ni=1nxi\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i

中位数

样本的 中位数 就是排序后最中间的数,通常记作 Q12Q_{\frac{1}{2}}

如果样本容量 nn 为奇数,取最中间的一个数:

Q12=xn+12Q_{\frac{1}{2}}=x_{\frac{n+1}{2}}

如果样本容量 nn 为偶数,通常取最中间的两个数的平均值:

Q12=xn2+xn2+12Q_{\frac{1}{2}}=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

众数

样本的 众数 指样本中出现次数最多的数据,可能不唯一,通常记作 MM

极差

极差 指样本中最大元素和最小元素的差值,通常记作 RR

R=max{xi}min{xi}R=\max{\set{x_i}}-\min{\set{x_i}}

方差

方差 是衡量样本数据离散程度的指标,通常记作 s2s^2

s2=1ni=1n(xixˉ)2=x2ˉxˉ2s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2=\bar{x^2}-\bar{x}^2

方差分为 总体方差样本方差,但在高中阶段通常只使用 总体方差

项目总体方差(σ2\sigma^2样本方差(s2s^2
目的描述整个总体的真实离散程度用样本 无偏估计 总体方差
公式σ2=1Ni=1N(xiμ)2\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
均值μ\mu:总体均值(固定且已知)xˉ\bar{x}:样本均值(由样本计算得到)
分母NN:所有数据点都是独立的n1n-1:引入 xˉ\bar{x} 后损失 11 个自由度
性质一个固定的参数一个随机变量

标准差

方差 的量纲(单位)和是 原始数据 的平方,导致不方便比较。

为了使量纲(单位)一致,我们可以将 方差 开平方,得到 标准差,通常记作 ss

s=1ni=1n(xixˉ)2s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}

抽样

简单随机抽样:从总体中随机地抽取样本,使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。在统计学的不同技术中需要使用随机数,例如在从统计总体中抽取有代表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。

等距抽样(也称系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。

分层抽样:分层抽样是从统计总体抽取样本方法,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。当总体内的子总体之间的差异较大,对每个子总体分别进行分层抽样调查,会令统计调查结果更为准确。子总体的分层必须为互斥,即每个总体的成员均只能属于一个分层。之后,可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。

整群抽样(又称群集抽样):将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。

等距抽样

假设从容量为 NN(很大)的总体中抽取容量为 nn 的样本,我们可以按下列步骤进行系统抽样:

  1. 先将总体的 NN 个个体编号。

  2. 确定分段间隔 kk,对编号进行分段。

    • Nn\frac{N}{n} 是整数时,取 k=Nnk=\frac{N}{n}
    • Nn\frac{N}{n} 不是整数时,假设余数为 rr0<r<n0<r<n),可随机地从 NN 个个体中剔除余数 rr 个个体,此时取 k=Nrnk=\frac{N-r}{n}
  3. 在第一段用简单随机抽样确定第 11 个个体的编号 \ellk\ell\le k)。

  4. 将编号为 ,+k,+2k,,+(n1)k\ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k 的个体抽出。

我们知道 ,+k,+2k,,+(n1)k\ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k 是以 \ell 为首项、以 kk 为公差的等差数列,设第 nn 段抽到的编号为 ana_n,则 an=+(n1)ka_n = \ell + (n - 1)k。故系统抽样也叫等距抽样。

分层抽样

当总体是由差异明显的几部分(层)构成时,如果我们用简单随机抽样或系统抽样,有可能抽取的数据全部来自同一部分(层)。为了避免这种情况发生,我们可以按各层所占的比例一层一层抽,即为分层抽样。

分层抽样的步骤:

  1. 分层:将总体分成互不交叉的层。
  2. 确定抽样比:总体 NN,样本容量 nn,则抽样比例为 nN\frac{n}{N}
  3. 分层抽样:在各层中按抽样比例 nN\frac{n}{N} 独立地进行简单随机抽样。
  4. 汇合样本:将各层抽取的样本合并为最终样本。

例如:第一层 XXnn 个元素,第二层 YYmm 个元素。

容易得出:

aˉ=nXˉ+mYˉn+m\bar a=\frac{n\bar X+m\bar Y}{n+m}

对于方差会麻烦一点:

D(a)=E(a2)(Ea)2=nE(X2)+mE(Y2)n+m(nE(X)+mE(Y)n+m)2=nD(X)+mD(Y)n+m+nm(EXEY)2(n+m)2\begin{aligned} D(a)&=E(a^2)-(Ea)^2\\ &=\frac{nE(X^2)+mE(Y^2)}{n+m}-\left(\frac{nE(X)+mE(Y)}{n+m}\right)^2\\ &=\frac{nD(X)+mD(Y)}{n+m}+\frac{nm(EX-EY)^2}{(n+m)^2} \end{aligned}

分析

相关性

两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系

  • 当一个变量的值 增加 时,另一个变量的相应值呈现 增加 的趋势,则称这两个变量 正相关
  • 当一个变量的值 增加 时,另一个变量的相应值呈现 减少 的趋势,则称这两个变量 负相关

列联表

我们将如下的表格称为 列联表

X/YX/YY=0Y=0Y=1Y=1合计
X=0X=0aabba+ba+b
X=1X=1ccddc+dc+d
合计a+ca+cb+db+dn=a+b+c+dn=a+b+c+d

独立性检验

我们希望判断事件 {X=1}\set{X=1}{Y=1}\set{Y=1} 是否有关联,相当于判断下面的假定关系是否成立:

H0:P(Y=1X=0)=P(Y=1X=1)H_0:P(Y=1|X=0)=P(Y=1|X=1)

H0H_0 为零假设或原假设。这里 P(Y=1X=0)P(Y=1|X=0) 表示从 {X=0}\set{X=0} 中随机选一个样本点,该样本点属于 {X=0,Y=1}\set{X=0,Y=1} 的概率。由条件概率,H0H_0 等价于 {X=1}\set{X=1}{Y=1}\set{Y=1} 相互独立,进一步等价于 XXYY 独立。

χ2=n(adbc)2(a+b)(c+d)(a+c)(b+d)\chi^2=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}

对小概率值 α\alpha 的检验规则:

χ2xα\chi^2\geq x_{\alpha} 时,就推断 H0H_0 不成立,XXYY 不独立。该推断犯错误的概率不超过 α\alpha.

χ2<xα\chi^2<x_{\alpha} 时,就推断 H0H_0 成立,认为 XXYY 独立。

常用小概率值和临界值:

α\alpha0.10.10.050.050.010.010.0050.0050.0010.001
xαx_\alpha2.7062.7063.8413.8416.6356.6357.7897.78910.82810.828