[머신러닝]

[머신러닝] 베이지안 네트워크(Bayesian Network) - 1 확률

딥러닝 도전기 2021. 8. 6. 01:03

베이지안 네트워크에 대한 내용을 다루어보겠습니다.

이번 포스팅에서는 베이지안 네트워크를 이해하는데에 필요한 확률의 기본적인 지식에 대하여 보겠습니다.

 

  • 전체 확률의 법칙 (Law of total probability)

전체 확률의 법칙은 "summing out" 혹은 "marginalization" 으로 알려져있습니다.

 

먼저 수식으로 살펴보겠습니다.

$P(a) = \Sigma_b P(a,b) = \Sigma_b P(a|b)P(b)$

에서 $b$가 binary event라고 생각해보면 

$\Sigma_b P(a,b) = P(a, b = true) + P(a, b = false)$ 이므로 $b$에 관계없이

$\Sigma_b P(a,b) = P(a)$가 성립합니다.

 

다음으로

$\frac{P(a,b)}{P(b)} = P(a|b)$이고 $P(a,b) = P(a|b)P(b)$ 이므로

$\Sigma_b P(a,b) = \Sigma_b P(a|b)P(b)$가 성립합니다.

 

joint distribution $P(a,b,c,d)$가 주어져 있는 상황을 보겠습니다.

$P(a, b, c, d)$가 주어져 있을 때 $P(b)$를 구하기 위해 전체 확률의 법칙을 적용해보겠습니다.

 

이 경우에는 $b$를 제외한 $a, c, d$에 대하여 모두 marginalize 하면 $P(b)$를 얻을 수 있습니다.

 

$P(b) = \Sigma_a \Sigma_c \Sigma_d P(a,b,c,d)$

 

더 나아가서 joint distribution $P(a,b,c,d)$가 주어져 있을 때 $P(c|b)$를 구해보겠습니다.

 

전체 확률의 법칙에 의해

$P(c|b) = \Sigma_a \Sigma_d P(a,c,d|b)$ 입니다. 여기에서 조건부 확률과 joint의 관계에 의해서

$P(a,c,d|b) = \frac{P(a,b,c,d)}{P(b)}$ 가 되므로 $\Sigma_a \Sigma_d P(a,c,d|b) = \Sigma_a \Sigma_d \frac{P(a,b,c,d)}{P(b)}$ 가 성립합니다.

여기서 우변의 분모에 있는 $P(b)$를 normalization constant(정규화 상수)라고 합니다.

 

이렇게 joint를 알면 개별 확률을 구할 수 있고, 조건부확률 또한 구할 수 있다는 장점이 있습니다.

하지만 joint를 사용하게 되면 parameter수가 급격하게 증가하는 것을(exponential 하게 증가) 볼 수 있습니다.

 

  • Probability factorization (Probability chain rule) 

다음으로 factorization을 보겠습니다.

조건부 확률을 사용하여 

$P(a,b,c,\cdots,z) = P(a|b,c,\cdots,z)P(b,c,\cdots,z)$ 

로 변형할 수 있습니다. 이 과정을 반복해서 진행하면

$P(a,b,c,\cdots,z) = P(a|b,c,\cdots,z)P(b|c,\cdots,z)P(\cdots,z)\cdots P(z)$

로 또한 곱셈으로 변형할 수 있습니다.

 

이러한 변형을 factorization 또는 chain rule 라고 합니다.

 

모든 joint는 factorizaion이 가능하다는 것을 알 수 있습니다.

 

  • 독립(independence)

$A$와 $B$가 서로 독립이면 다음이 성립합니다.

$P(A|B) = P(A)$ → $A$가 일어날 확률은 사건 $B$에 관계없다.

$P(B|A) = P(B)$ → $B$가 일어날 확률은 사건 $A$에 관계없다.

 

$P(A,B) = P(A)P(B)$ 

 

서로 독립인 사건 $C_1, C_2, \cdots ,C_n$에 대하여

$P(C_1, C_2, \cdots , C_n) = \Pi_{i=1}^n C_i$ 입니다.

 

  • 조건부 독립(conditinal independence) 

$C$가 없으면 $A$와 $B$가 독립이 아니지만 $C$가 주어지면 독립이 되는 것을 말합니다.

따라서 

$P(A|B,C) = P(A|C)$ 가 성립합니다.

 

반응형