[수학]/[통계학]

[통계학] Z검정(Z-test)

딥러닝 도전기 2021. 5. 28. 21:06

MIT open courseware의 를 공부한 내용을 정리해보았습니다.

 

가설 검증을 위해 사용되는 방법인 Z-검정(Z-test)에 대해 다루어 보겠습니다.


 Z-test는 정규분포를 따르는 데이터를 다룹니다.
$\sigma$를 알고 있고, 평균$\mu$를 모를 때 Z-test를 사용합니다.

 

 

정규분포를 따르는 데이터 (normal Data): $x_1, x_2, \cdots, x_n$이 있고, 이 데이터의 평균$\bar{x} = \mu$가 알려져있지 않고, 표준편차$\sigma$가 알려져 있을 때, 귀무 가설$H_0$ (Null hypothesis)와 대립가설 $H_A$ (alternative hypothesis)를 설정한 후 Z-value 와  P-value를 이용하여 $H_0$를 reject 혹은 accept 합니다.

 

귀무 가설(Null hypothesis) $H_0$ 에서 $\mu = \mu_0$라고 가정하면 $H_0: x_i$ 는 $N(\mu_0, \sigma^2)$ 를 따른다고 생각할 수 있습니다.

[여기서 $\mu_0$ 는 별로 놀랍지 않은, 이미 알고있는 혹은 추정하고 있는 평균입니다.]

 

대립가설은 $\mu \neq \mu_0$ (two-sided) 혹은 $\mu > \mu_0 $   or   $ \mu < \mu_0$(one-sided)로 가정합니다.

 

z-value 는  $\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}$ 이고, 이를 이용해서

 

귀무 가설$H_0: x_i ~ N(\mu_0, \sigma^2)$를 표준화 하면 $H_0$는 표준정규분포 $N(0,1)$ 을 따릅니다.

 

p-value 는 One-sided 일때는 $p = P(Z>z|H_0)$ 이고, Two-sided 일때는 $p = P(|Z|>z|H_0)$ 입니다.

 

Significance level = $\alpha$라고 하고 $p\le\alpha$이면 $H_0$를 reject 합니다. 보통 Significance level 은 0.05를 사용합니다.

 

예제를 통해 내용을 정리해보겠습니다.(One-sided)

MIT OpenCourseWare - Probability and statistics spring-2014 c17 Frequentist methods; NHST -class slides

$H_0 : \mu =100$이라는 귀무 가설을 세우고

 

$H_A : \mu >100$이라는 대립 가설을 세웠습니다.

 

9개의 data의 평균 $\bar{x} = 112$이므로 z-value를 이용해 정규화를 하면

 

$z=\frac{112-100}{15/\sqrt{9}} = \frac{12}{5} = 2.4$ 입니다.

 

그림에서 알 수 있듯,  $p = P(Z>z|H_0) \le 0.05$ 입니다.

 

상식적으로 생각해 보면, 그래프의 중앙에서 $z$값이 멀어질수록 저희가 설정한 가설$H_0$와의 차이는 커지게 됩니다.

 

따라서 p-value 를 0.05로 만드는 $z$값 $z_{0.05}$보다 중심과 멀리 떨어져 있으면 $H_0$를 reject 합니다. 

 

반응형