Site Overlay

概率论复习重点:假设检验

Hypothesis Testing

本文参考:

  1. 梨米特考研数学 https://www.bilibili.com/video/BV1D741147G5
  2. 宋浩 https://www.bilibili.com/video/BV1ot411y7mU
  3. 概率论与数理统计(浙江大学)https://www.bilibili.com/video/BV1vW41147Uw?p=78

概念

假设检验的基本原理

假设检验的基本原理:实际推断原理(小概率假设),即在一次试验当中,小概率的事件几乎不可能发生。


:假设 $H_0 = \text{True}$ 时,$P\{A\}$ 很小;$H_0 = \text{False}$ 时,$P\{A\}$ 显著增大。

然后根据样本观察值,看看 $A$ 发生了没有:

发生了,说明拒绝了 $H_0 = \text{True}$ 这个假设。

没发生,说明接受了 $H_0 = \text{True}$ 这个假设。

$$
假设 H_0 真\longrightarrow 构造统计量 \longrightarrow A 发生概率很小\longrightarrow 接受 H_0 假设
$$

方法引入(以均值假设检验为例)

【例子】某车间用一台包装机包装葡萄糖。袋装糖的净重是一个随机变量,它服从正态分布$X \sim N(\mu, \sigma^2)$。当机器正常时,其均值为 0.5kg,标准差为 0.015kg。某日开工后为检验包装机是否正常,随机地抽取它所包装的糖 9 袋,称得净重为(kg):

0.497 0.506 0.518
0.524 0.498 0.511
0.520 0.515 0.512

问机器是否正常?(显著性水平 $\alpha = 0.05$

【分析与解答】

在生产中标准差一般认为是确定的,即可以把 $X \sim N(\mu, 0.015^2)$ 作为一个已知条件。我们的问题就是根据样本值,判断是否可以 认为 $\mu = \mu_0 = 0.5$

提出假设

我们提出两个假设:

  1. $H_0: \mu = \mu_0 = 0.5$,这是原假设
  2. $H_1: \mu\ne \mu_0$,这是备择假设

两类错误

  1. I 类:弃真错误$H_0$ 这个假设是对的,但是样本值不符合要求(称为拒绝 $H_0$
  2. II 类:取伪错误$H_0$ 这个假设是不真确的,结果通过样本反而接受了这个假设。

这两类错误都是无法排除的。我们约定要 控制犯 I 类错误的概率。这种控制行为称为 显著性检验

显著性检验

记:

$$
P\{\text{ 犯 I 类错误}\} \leqslant \alpha
$$

其中 $\alpha$ 称为 显著性水平

那么我们如何衡量这个概率呢?如果 $H_0$ 为真,根据其定义,则 $|\overline{x} - \mu_0|$ 应该比较小。所以可以用 $|\overline{x} - \mu_0|$ 衡量。根据 $\overline{X}$ 分布的性质,构造如下检验统计量

$$
Z = \dfrac{|\overline{X} - \mu_0|}{\sigma/\sqrt{n}}\sim N(0,1)
$$

可以认为 $Z$ 较大时,可以拒绝 $H_0$

为了找出临界值(设为 $k$),我们可以列出方程:

$$
P\{\text{ 犯 I 类错误}\} = \alpha = P\{Z>k\}
$$

从而可以求出 $k = Z_{\alpha/2}$.

所以实际做题时,可以认为当 $|z| \geqslant Z_{\alpha/2}$ 时拒绝 $H_0$。当 $|z| 时接受 $H_0$

集合 $W={|z| \geqslant Z_{\alpha/2}}$ 的区域,称为 拒绝$H_0$假设的区域,简称拒绝域。边界 $\pm Z_{\alpha/2}$ 称为临界点


回到刚才的例子,

(1)设检验统计量为 $Z = \dfrac{|\overline{X} - \mu_0|}{\sigma/\sqrt{n}}$

(2)拒绝域为 $|z| > Z_{\alpha/2}$

(3)$P(|z| > Z_{\alpha/2}) = \alpha$$\overline{X} = 0.5112$,从而 $Z = 2.2444$

(4)标准正态 $Z_{0.025} = 1.96$

(5)发现 $Z$ 落在了拒绝域,所以拒绝 $H_0$,包装机的工作不正常。

对于均值的单侧检验,$k$ 换成 $Z_{\alpha}$ 即可。

假设选取原则

其实就是一个保守原则:

  1. 把大众认为正确的命题作为原假设。(已有的不容推翻)
  2. 把研究人员想要证明的作为备择假设。(新来的需要谨慎)

假设检验的分类

其实就是拒绝域在哪一侧就是什么检验。

  1. 双边检验:$H_0: \mu = \mu_0$
  2. 右边检验:$H_0:\mu \leq \mu_0$
  3. 左边检验:$H_0:\mu \geq \mu_0$

方差假设检验

双边检验

(1)检验统计量:由于 $E(S^2) = \sigma^2$,是无偏估计,当 $H_0 = \text{True}$,有:

$$
\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)
$$

(2)拒绝域:$S^2$ 的观察值$s^2$$\sigma_0^2$ 的比值在 $1$ 附近摆动,拒绝域形式为:

$$
\frac{s^2}{\sigma_0^2} \leqslant k_1 \quad \text{or}
\quad \frac{s^2}{\sigma_0^2} \geqslant k_1
$$

(3)确定常数 $k_1, k_2$$k_1 = \chi_{1-\alpha/2}$$$k1 = \chi{\alpha/2}$$

(4)因此拒绝域为:

$$
\chi^2 \leqslant \chi_{1-\alpha/2} \cup \chi^2 \geqslant \chi_{\alpha/2}
$$

单边检验(右边为例)

$H_0: \sigma^2 \leqslant \sigma_0^2$$H_0: \sigma^2 > \sigma_0^2$

注意到 $H_0$ 中全部 $\sigma^2$$H_1$ 中的小。$H_1$ 为真,则 $s^2$ 往往偏大,所以拒绝域的形式是 $s^2 \geqslant k$$P(\text{I error}) = P(S^2 \geqslant k)$,一通操作可知,拒绝的临界条件为:

$$
\dfrac{(n-1)k}{\sigma_0^2} = \chi^2_{\alpha}
$$

拒绝域的形式为:

$$
\chi^2 \geqslant \chi_{\alpha}
$$

例题

【例子】样本 n = 5, 数据 [3.25, 3.27, 3.24, 3.26, 3.24]。总体服从 $N(\mu, \sigma^2)$

(1)求 $\mu$ 置信水平 0.99 的双侧置信区间。

(2)$\alpha = 0.01$ 下,均值 $\mu$ 是否为 3.25

【分析与解答】

温馨提示:置信水平是 $1-\alpha$,显著性水平是 $\alpha$,别混淆了。

(1)置信水平 $1-\alpha = 0.99$。本题套用的模型为“未知 $\sigma^2$,求 $\mu$ 区间”,利用:

$$
T = \dfrac{\sqrt{n}(\bar{x} - \mu)}{s}\sim t(n-1)
$$

双侧采用 $\pm t_{\alpha/2}(n-1)$(当然,考试的时候要写成 $t_{1-\alpha/2}$$t_{\alpha/2}$),即:

$$
- t_{\alpha/2}(n-1) \leq T \leq t_{\alpha/2}(n-1)
$$

可以算出的条件:

t_{0.0005}(4) = 4.6041
average         3.252000
variance (div n-1 ) 0.000170
s, standard deviation   0.01303840

带入就是:

$$
4.6041 \leq \dfrac{\sqrt{5}(3.252 - \mu)}{0.01303840} \leq 4.6041
$$

得出 $\mu \in[3.2252, 3.2788]$

(2)设 $H_0: \mu = 3.25; H_1: \mu \ne 3.25$

由于 $\sigma^2$ 未知,所以用 T 分布。设检验统计量为 $t = \dfrac{|\overline{X} - \mu|}{s/\sqrt{n}}\sim t(n-1)$

拒绝域为区间的两外侧 $|t|\geqslant t_{\alpha/2}(n-1)$,查表得知:

$t_{0.005}(4) = 4.6041$,而 $|t| = \dfrac{3.252 - 3.25}{0.013/2.23}=0.343 < 4.604$,可以接受 $H_0$,认为均值为 $\mu = 3.25$

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注