统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。
假设有一组样本容量为 n 的样本 x1,x2,…,xn。
统计学中的 平均数 一般指 算术平均数,即样本的总和除以样本的数量,通常记作 xˉ。
xˉ=n1i=1∑nxi
样本的 中位数 就是排序后最中间的数,通常记作 Q21。
如果样本容量 n 为奇数,取最中间的一个数:
Q21=x2n+1
如果样本容量 n 为偶数,通常取最中间的两个数的平均值:
Q21=2x2n+x2n+1
样本的 众数 指样本中出现次数最多的数据,可能不唯一,通常记作 M。
极差 指样本中最大元素和最小元素的差值,通常记作 R。
R=max{xi}−min{xi}
方差 是衡量样本数据离散程度的指标,通常记作 s2。
s2=n1i=1∑n(xi−xˉ)2=x2ˉ−xˉ2
方差分为 总体方差 和 样本方差,但在高中阶段通常只使用 总体方差。
| 项目 | 总体方差(σ2) | 样本方差(s2) |
|---|
| 目的 | 描述整个总体的真实离散程度 | 用样本 无偏估计 总体方差 |
| 公式 | σ2=N1∑i=1N(xi−μ)2 | s2=n−11∑i=1n(xi−xˉ)2 |
| 均值 | μ:总体均值(固定且已知) | xˉ:样本均值(由样本计算得到) |
| 分母 | N:所有数据点都是独立的 | n−1:引入 xˉ 后损失 1 个自由度 |
| 性质 | 一个固定的参数 | 一个随机变量 |
但 方差 的量纲(单位)和是 原始数据 的平方,导致不方便比较。
为了使量纲(单位)一致,我们可以将 方差 开平方,得到 标准差,通常记作 s。
s=n1i=1∑n(xi−xˉ)2
简单随机抽样:从总体中随机地抽取样本,使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。在统计学的不同技术中需要使用随机数,例如在从统计总体中抽取有代表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。
等距抽样(也称系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
分层抽样:分层抽样是从统计总体抽取样本方法,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。当总体内的子总体之间的差异较大,对每个子总体分别进行分层抽样调查,会令统计调查结果更为准确。子总体的分层必须为互斥,即每个总体的成员均只能属于一个分层。之后,可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。
整群抽样(又称群集抽样):将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。
假设从容量为 N(很大)的总体中抽取容量为 n 的样本,我们可以按下列步骤进行系统抽样:
-
先将总体的 N 个个体编号。
-
确定分段间隔 k,对编号进行分段。
- 当 nN 是整数时,取 k=nN。
- 当 nN 不是整数时,假设余数为 r(0<r<n),可随机地从 N 个个体中剔除余数 r 个个体,此时取 k=nN−r。
-
在第一段用简单随机抽样确定第 1 个个体的编号 ℓ(ℓ≤k)。
-
将编号为 ℓ,ℓ+k,ℓ+2k,…,ℓ+(n−1)k 的个体抽出。
我们知道 ℓ,ℓ+k,ℓ+2k,…,ℓ+(n−1)k 是以 ℓ 为首项、以 k 为公差的等差数列,设第 n 段抽到的编号为 an,则 an=ℓ+(n−1)k。故系统抽样也叫等距抽样。
当总体是由差异明显的几部分(层)构成时,如果我们用简单随机抽样或系统抽样,有可能抽取的数据全部来自同一部分(层)。为了避免这种情况发生,我们可以按各层所占的比例一层一层抽,即为分层抽样。
分层抽样的步骤:
- 分层:将总体分成互不交叉的层。
- 确定抽样比:总体 N,样本容量 n,则抽样比例为 Nn。
- 分层抽样:在各层中按抽样比例 Nn 独立地进行简单随机抽样。
- 汇合样本:将各层抽取的样本合并为最终样本。
例如:第一层 X 有 n 个元素,第二层 Y 有 m 个元素。
容易得出:
aˉ=n+mnXˉ+mYˉ
对于方差会麻烦一点:
D(a)=E(a2)−(Ea)2=n+mnE(X2)+mE(Y2)−(n+mnE(X)+mE(Y))2=n+mnD(X)+mD(Y)+(n+m)2nm(EX−EY)2
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系。
- 当一个变量的值 增加 时,另一个变量的相应值呈现 增加 的趋势,则称这两个变量 正相关。
- 当一个变量的值 增加 时,另一个变量的相应值呈现 减少 的趋势,则称这两个变量 负相关。
我们将如下的表格称为 列联表。
| X/Y | Y=0 | Y=1 | 合计 |
|---|
| X=0 | a | b | a+b |
| X=1 | c | d | c+d |
| 合计 | a+c | b+d | n=a+b+c+d |
我们希望判断事件 {X=1} 和 {Y=1} 是否有关联,相当于判断下面的假定关系是否成立:
H0:P(Y=1∣X=0)=P(Y=1∣X=1)
称 H0 为零假设或原假设。这里 P(Y=1∣X=0) 表示从 {X=0} 中随机选一个样本点,该样本点属于 {X=0,Y=1} 的概率。由条件概率,H0 等价于 {X=1} 和 {Y=1} 相互独立,进一步等价于 X 和 Y 独立。
χ2=(a+b)(c+d)(a+c)(b+d)n(ad−bc)2
对小概率值 α 的检验规则:
当 χ2≥xα 时,就推断 H0 不成立,X 和 Y 不独立。该推断犯错误的概率不超过 α.
当 χ2<xα 时,就推断 H0 成立,认为 X 和 Y 独立。
常用小概率值和临界值:
| α | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 |
|---|
| xα | 2.706 | 3.841 | 6.635 | 7.789 | 10.828 |