MIT open courseware의 를 공부한 내용을 정리해보았습니다.
가설 검증을 위해 사용되는 방법인 Z-검정(Z-test)에 대해 다루어 보겠습니다.
Z-test는 정규분포를 따르는 데이터를 다룹니다.
$\sigma$를 알고 있고, 평균$\mu$를 모를 때 Z-test를 사용합니다.
정규분포를 따르는 데이터 (normal Data): $x_1, x_2, \cdots, x_n$이 있고, 이 데이터의 평균$\bar{x} = \mu$가 알려져있지 않고, 표준편차$\sigma$가 알려져 있을 때, 귀무 가설$H_0$ (Null hypothesis)와 대립가설 $H_A$ (alternative hypothesis)를 설정한 후 Z-value 와 P-value를 이용하여 $H_0$를 reject 혹은 accept 합니다.
귀무 가설(Null hypothesis) $H_0$ 에서 $\mu = \mu_0$라고 가정하면 $H_0: x_i$ 는 $N(\mu_0, \sigma^2)$ 를 따른다고 생각할 수 있습니다.
[여기서 $\mu_0$ 는 별로 놀랍지 않은, 이미 알고있는 혹은 추정하고 있는 평균입니다.]
대립가설은 $\mu \neq \mu_0$ (two-sided) 혹은 $\mu > \mu_0 $ or $ \mu < \mu_0$(one-sided)로 가정합니다.
z-value 는 $\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}$ 이고, 이를 이용해서
귀무 가설$H_0: x_i ~ N(\mu_0, \sigma^2)$를 표준화 하면 $H_0$는 표준정규분포 $N(0,1)$ 을 따릅니다.
p-value 는 One-sided 일때는 $p = P(Z>z|H_0)$ 이고, Two-sided 일때는 $p = P(|Z|>z|H_0)$ 입니다.
Significance level = $\alpha$라고 하고 $p\le\alpha$이면 $H_0$를 reject 합니다. 보통 Significance level 은 0.05를 사용합니다.
예제를 통해 내용을 정리해보겠습니다.(One-sided)
$H_0 : \mu =100$이라는 귀무 가설을 세우고
$H_A : \mu >100$이라는 대립 가설을 세웠습니다.
9개의 data의 평균 $\bar{x} = 112$이므로 z-value를 이용해 정규화를 하면
$z=\frac{112-100}{15/\sqrt{9}} = \frac{12}{5} = 2.4$ 입니다.
그림에서 알 수 있듯, $p = P(Z>z|H_0) \le 0.05$ 입니다.
상식적으로 생각해 보면, 그래프의 중앙에서 $z$값이 멀어질수록 저희가 설정한 가설$H_0$와의 차이는 커지게 됩니다.
따라서 p-value 를 0.05로 만드는 $z$값 $z_{0.05}$보다 중심과 멀리 떨어져 있으면 $H_0$를 reject 합니다.
'[수학] > [통계학]' 카테고리의 다른 글
[통계학] T-검정(T-test) (0) | 2021.05.29 |
---|---|
[통계학] 에러, 유의수준, 검정력 (Error, significance level and power) (0) | 2021.05.28 |
[통계학] 베타 분포 (Beta distribution) (0) | 2021.05.27 |