[수학]/[통계학]

[통계학] 베타 분포 (Beta distribution)

딥러닝 도전기 2021. 5. 27. 03:32

MIT open courseware의 <Probability and Statistics> 를 공부한 내용을 정리해보았습니다.

 

베이지안 추론(Bayesian inference)에서 자주 등장하는 베타 분포에 대해 다루어 보겠습니다.


베타분포의 정의

베타 분포(beta distribution)란 두 매개변수 $\alpha$와 $\beta$에 의해

[0, 1]구간에서 정의되는 연속확률분포이다.

 

 

 

베타 분포 $Beta(\alpha, \beta)$의 pdf $f(\theta)$는 다음과 같습니다.

 

$f(\theta) = \frac{(\alpha + \beta - 1)!}{(\alpha - 1)!(\beta - 1)!}\theta^{\alpha-1}\theta^{\beta-1}$

 

베타 분포 pdf $f(\theta)$의 계수 $\frac{(\alpha+\beta-1)!}{(\alpha-1)!(\beta-1)!}$ 가 나오는 과정을 살펴보겠습니다.

 

베타 분포는 pdf를 0부터 1까지 적분한 값 $\int_0^1{f(\theta)}d\theta = 1$ 이기 때문에

 

$c = \frac{(\alpha+\beta-1)!}{(\alpha-1)!(\beta-1)!}$ 라고 하면

 

$\int_0^1c\theta^{\alpha-1}(1-\theta)^{\beta-1} = 1$ 입니다.

 

이제 Table을 이용해 부분적분을 해보겠습니다.

 

표적분법


우선 Table을 이용한 부분적분에 대해 간단히 소개하면 

$\int{f(x)g(x)dx}$ 를 부분적분 하기 위해 $f(x)$는 $f^{(n)}(x) = 0$이 될때 까지 미분을, $g(x)$는 적분을 한 결과를 표에 작성합니다.

그 후 화살표에 표시해둔 방향으로 곱해주며 홀수번째(파란 화살표)에서는 +를, 짝수번째(주황 화살표)에서는 -를 부호로 해서 모두 더해줍니다.

그러면 결과는 $\int{f(x)g(x)dx}=f(x)\int{g(x)}dx-f'(x)\int\int{g(x)}dxdx+f''(x)\int\int\int{g(x)}dxdxdx-\cdots$

가 나옵니다.

 

이제 이 Table을 이용한 부분적분과 베타 분포의 pdf $f(\theta)$의 넓이가 1이라는 것을 이용해서 $c$를 구해보겠습니다.

 

$\int_0^1{\theta^{a-1}(1-\theta)^{b-1}d\theta}=-[(a-1)!\times\frac{(1-\theta)^{b+a-2}}{b(b+1)\cdots(b+a-2)(b+a-1)}]_0^1=\frac{(a-1)!}{b(b+1)\cdots(b+a-2)(b+a-1)}$이고,

 

$\int_0^1{c\theta^{a-1}(1-\theta)^{b-1}d\theta}=1$ 이므로

 

$\frac{(a-1)!}{b(b+1)\cdots(b+a-2)(b+a-1)}=\frac{1}{c}$ 를 정리하면

 

$\frac{b(b+1)\cdots(b+a-2)(b+a-1)}{(a-1)!}=\frac{(a+b-1)!}{(a-1)!(b-1)!} = c$ 입니다.

 

따라서 pdf $f(\theta)$의 넓이를 1로 만들어주는 $c$값은 $\frac{(a+b-1)!}{(a-1)!(b-1)!}$ 입니다.

 

MATLAB를 사용해서 그려본 Beta distribution pdf입니다.

반응형