[수학]/[데이터 과학을 위한 통계]

[데이터 과학을 위한 통계] 2. 데이터와 표본분포

딥러닝 도전기 2022. 1. 11. 00:28

[데이터 과학을 위한 통계] 2. 데이터와 표본분포

이전 포스팅에 이어서 이번 포스팅에서는 <데이터 과학을 위한 통계> 두 번째 챕터를 리뷰해보려고 합니다.

우선 다음의 교재를 공부한 내용을 개인적으로 정리하는 포스팅임을 밝힙니다.

글을 읽으시다가 이상한 점이나, 궁금하신 점은 편하게 댓글로 남겨주시면 감사하겠습니다.


1. 표본추출과 표본편향

  • 표본이란?

표본은 모집단(큰 데이터 집합)으로 부터 얻은 데이터의 부분집합을 의미합니다.

임의표본추출은 모집단으로 부터 샘플을 무작위로 추출하는 과정을 말합니다. 임의표본추출은 복원추출과 비복원추출로 나뉩니다.

 

  • 표본편향

표본편향이란 모집단에서 표본을 추출할 때(샘플링할 때) 표본을 잘못 선택하여 통계 분석이 왜곡되는 것을 의미합니다.

한 예시로, 1936년 미 대선에서 루즈벨트와 랜던의 경선에서 한 설문 조사 기관은 설문 결과를 토대로 랜던이 압승할 것으로 예측했지만, 대선의 결과는 루즈벨트의 승리였습니다. 이 이유는 설문조사의 대상인 표본을 잘못 선택했기 때문인데, 당시에 비교적 부유한 계층이 전화 및 자동차를 소유하고 있었기 때문에 마케팅 담당자의 명단에 사회적 지위가 높은 사람들이 대다수를 차지했습니다.

표본 자체가 사회적 지위라는 척도로 나뉘어 설문 대상이 불균형한 상태에서 설문을 진행하여 표본편향이 발생한 것입니다.

즉, 설문의 대상이 모집단(전체 시민)에서 추출되지 않고 유의미한 비임의 방식으로 표본이 추출되었습니다. 

이와 같은 것은 표본편향이라고 합니다.

 

  • 편향

편향이란 측정 과정 혹은 표본추출 과정에서 발생하는 오차를 의미합니다. 통계적 추정결과가 크거나 작아짐에 따라 발생하는 변동오차와는 달리, 추정 결과가 한 쪽으로 치우치는 오차를 의미합니다.

 

  • 임의표본추출층화표본추출

임의표본추출은 표본편향과 밀접한 연관이 있습니다. 임의표본추출을 잘하지 못하면 위의 루즈벨트 예시와 같이 표본편향이 발생합니다. 임의표본추출을 잘한다는 것은 결국 모집단을 적절하게 정의하는 것으로 볼 수 있습니다. 

하지만 루즈벨트 예시처럼 모집단을 적절히 정의한다는 일 자체가 쉬운 일이 아닙니다. 이를 완전히는 아니지만, 어느정도 해결하기 위하여 층화표본추출의 방법을 사용합니다. 층화표본추출이란 모집단을 여러 층으로 나누고 각 층에서 무작위로 샘플을 추출하는 것을 의미합니다.

루즈벨트 예시에서 층화표본추출을 시행했다면 상류층, 중위층, 하위층을 나누어서 각각 설문조사를 시행했을 것입니다.

 

2. 선택편향

  • 선택편향 (selective bias) : 관측 데이터를 선택하는 방식 때문에 생기는 편향
  • 데이터 스누핑(data snooping) : 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
  • 방대한 검색 효과(vast search effect) : 중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

선택편향은 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미합니다.

 

3. 통계학에서의 표본분포

  • 표본분포라는 용어는 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포입니다. 대부분의 고전 통계학은 이 표본분포를 가지고 모집단을 추론해내는 것과 관련이 있습니다.
  • 표본통계량(sample statistics) : 더 큰 모집단에서 추출된 표본 데이터들로부터 얻은 측정 지표
  • 데이터 분포(data distribution) : 어떤 데이터 집합에서의 각 개별 값의 도수분포
  • 표본분포(sampling distribution) : 여러 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포
  • 중심극한정리(CLT - Central Limit Theorem) : 표본크기가 커질수록 표본분포가 정규분포에 근사하는 경향

중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 근사한다는 정리입니다. 중심극한정리는 큰 수의 법칙과 함께 통계학의 뼈대를 이룹니다.

중심극한정리가 중요한 이유는 표본을 통계적으로 분석하여 모집단을 추론해낼 수 있다는 가설검정과 신뢰구간 등의 이론적 근거를 제시하기 때문에 중요합니다.

  • 표준오차(standard error) : 여러 표본들로부터 얻은 표본통계량의 변량

표준오차는 통계에 대한 표본분포의 변동성을 한마디로 말해주는 단일 측정 지표입니다. 수식으로는 다음과 같습니다.

$$SE = \frac{s}{\sqrt{n}}$$
표본크기가 커지면(n이 커지면) SE가 감소하는 것을 수식을 통하여 알 수 있습니다. 표본오차와 표본크기 사이의 관계를 $n$ 제곱근의 법칙이라고 합니다. 즉, 표준오차를 2배로 줄이기 위해서는 표본의 크기를 4배 증가시켜야 합니다.

 

표준오차를 측정할 때 새로운 샘플을 추출할 필요가 없다는 사실이 밝혀져서 부트스트랩 재표본추출 방식을 사용합니다.

 

4. 부트스트랩

부트스트랩이란 현재 있는 표본에서 추가적으로 표본을 복원추출하고, 각 표본에 대한 통계량과 모델을 다시 계산하는 것입니다. 이런 식의 부트스트랩 샘플링은 복원추출을 하기 때문에 각 원소가 뽑힐 확률은 그대로 유지하면서, 무한한 크기의 모집단을 만들어낼 수 있습니다.

크기 $n$의 샘플의 평균을 구하는 부트스트랩 알고리즘은 다음과 같습니다.

 

1. 샘플 값을 하나 뽑아서 기록하고 다시 제자리에 놓는다.
2. n번 반복한다.
3. 재표본추출된 값의 평균을 기록한다.
4. 1~3단계를 $R$번 반복한다.
5. $R$개의 결과를 사용하여
    a. 표준편차를 계산한다.
    b. 히스토그램 혹은 상자그림을 그린다.
    c. 신뢰구간을 찾는다.

$R$은 부트스트랩 반복 횟수이며, 임의로 설정합니다. 

$R$이 클 수록 표준오차나 신뢰구간에 대한 추정이 더 정확해집니다.

5.신뢰구간

신뢰구간이란 알 수 없는 모수의 값이 포함될 가능성이 있는 값의 범위입니다.

  • 신뢰수준 : 같은 모집단으로부터 같은 방식으로 얻은, 관심 통계량을 포함할 것으로 예상되는 신뢰구간의 백분율
  • 구간끝점 : 신뢰구간의 최상위, 최하위 끝점

일반적으로 신뢰수준은 95%로 사용합니다.

신뢰수준 95%의 의미는 표본통계량의 부트스트랩 표본분포의 95%를 포함하는 구간을 말합니다. 

더 일반적으로 이야기 하자면, 표본추정치 주위의 $x\%$ 신뢰구간이란 평균적으로 유사한 표본추정치 $x\%$정도가 포함되는 구간을 의미합니다.

6.정규분포

정규분포는 평균과 분산에 의해 그래프가 그려집니다. 평균이 $\mu$이고, 표준편차가 $\sigma$인 정규분포의 그림은 다음과 같습니다.

위의 정규분포에서 표준화(Standardization) 작업을 거치게 되면 표준정규분포로 변화합니다. 표준화는 각 $x$값에 평균값 $\mu$를 빼고, 표준편차 $\sigma$로 나누어주는 작업이고 이 값을 $z$값, $z$점수 라고 합니다.

 

표준화 작업을 거치게 되고 나면 $z$값의 평균은 0, 표준편차는 1로 변합니다. 모든 데이터에서 평균$\mu$를 빼고, 표준편차 $\sigma$로 나누었으니 당연한 것으로 생각할 수 있습니다.

 

표준정규분포는 다음과 같은 특징이 있습니다.

  • 확률밀도함수(PDF)의 최빈값과 평균값이 일치합니다.
  • 평균(0) 을 기준으로 좌우 대칭입니다.
  • 커널함수의 성질을 갖는다.

여기서 커널함수의 성질이라는 것은 

1. 모든 구간의 적분값이 1이다.

2. 우함수이다.

3. 양수에서 정의된다.

입니다.

7. 스튜던트 t분포

스튜던트의 t분포는 정규분포와 유사한 생김새를 갖지만, 꼬리 부분이 약간 더 두껍습니다. t분포에서 표본의 크기가 커질수록 정규분포를 닮은 t분포가 형성됩니다. t분포는 정규분포의 평균을 측정할 때 주로 사용되는 분포입니다.

표준화된 여러 통계 자료를 t분포와 비교하여 신뢰구간을 추정할 수 있습니다. 표본평균이 $\bar{x}$인, 크기 $n$의 표본이 있다고 가정하고 s가 표본표준편차라면, 표본평균 주위의 90%신뢰구간은 다음과 같이 주어집니다.

$$\bar{x} \pm t_{n-1}(0.05)\bullet \frac{s}{\sqrt{n}}$$

 

8.이항분포

이항분포는 이진데이터에 관한 분포를 의미합니다. 즉, 예/아니오, 앞면/뒷면 등과 같은 의사결정에서 매우 중요하게 사용됩니다.

이항분포란 각 시행마다 그 성공확률$(p)$가 정해져 있을 때, 주어진 시행 횟수$(n)$ 중에서 성공한 횟수 $(x)$의 도수분포를 의미합니다. $n$ 과$p$ 값에 따라 다양한 이항분포들이 있습니다.

동전을 던지는 작업의 $n$번 시행에서 확률이 $p$일 때, $k$번이 앞면이 나올 확률은 다음과 같습니다.

$${n \choose k}(p)^{k}(1-p)^{1-k}$$

이항분포의 평균은 $n \times p$, 분산은 $n\times p \times (1-p)$ 입니다. 

 

시행 횟수가 충분할 경우($n$이 충분히 클 경우) 이항분포는 정규분포에 근사합니다.(CLT) 실제로 표본의 크기가 커질수록 이항 확률을 계산하기 위해서는 많은 계산이 필요하다 보니, 평균과 분산을 사용하여 정규분포로 근사한 후 사용하게 됩니다.

 

9. 카이제곱분포

 

10.  F분포

 

11. 푸아송분포

 

12. 지수분포

 

 

 

 

 

 

반응형