[베이지안 추론] Gibbs Sampling(1)

Inferring Two Binomial proportions via Gibbs sampling

$\ $이번 챕터는 두 개의 독립적인 이항 비율들에 대한 추론을 어떻게 하는 지에 대해 다룬다. 예를 들어, 우리가 두개의 동전을 갖고 있고 얼마나 그들의 편향도(biases)들이 다른지에 대해 결정하길 원한다고 가정해보자. 이 문제는 각각의 비율에 대한 것이 아니라, 두개의 비율 사이의 관계에 관한 문제이다.
$\ $이 문제에 대해 이번 챕터 순서에서 다루는 이유는, 첫째로, 이 주제는 비율에 관한 추론을 다루고 있고, 이전 챕터들에서 다룬 single proportions에 대한 추론의 연장선이기 때문이다. 두번째로, 다음 챕터들에서 다룰 hierarchical 모델들에 대한 이해를 돕기 위해서이다.
$\ $이 챕터에서 우리는 깁스 샘플링에 대한 개념을 배울 것이다. 이전 챕터에서 깁스 샘플링이 BUGS에 포함된 개념이라는 것만 배웠다. 깁스 샘플링에서는, 일반적인 Metropolis 알고리즘과는 달리, 제안된 jump 움직임이 한 번에 오직 한개의 파라미터에만 영향을 끼치며 이 제안은 절대로 거부당하지 않는다는 특징을 갖고 있다. 깁스 샘플링 방법론이 모든 상황에서 완벽하게 작동하는 것은 아니지만, 작동하는 경우에는 굉장히 효율적인 알고리즘이라는 것에 대해 알게 될 것이다.
$\ $실제 예를 들어보면, 우리가 어떤 병으로 고통받는 100명의 인구 샘플을 갖고 있다고 해보자. 우리는 그들 중 절반에게 특정 약을 투여했고, 절반에게는 플라시보 효과를 노출시켰다. 1주일 후에 약을 투여받은 사람들 중 12명은 개선 효과가 나타났고 플라시보 그룹에서는 5명이 약효를 보았다. 이 약은 실제로 플라시보 효과보다 장점이 있다고 말할 수 있을까? 그렇다면 얼마나 효과가 있는 것일까? 다르게 얘기하면, 관측되는 비율들의 차이에 기반해보면 (12/50 vs 5/50), 기저에 놓인 어떠한 차이가 실제로 신뢰할만 한 것일까? 이러한 문제들에 조금더 일반적으로 수학적 정교함을 갖추고 이야기를 풀기 위해선, 우리는 몇몇 표기들을 정의할 필요가 있다. 이전 챕터에서 사용했던 몇몇 같은 종류들의 표기를 사용하자. 그룹을 표기할 필요가 있다. 그룹 “$j$” (j = 1 or j = 2)에서 “heads”의 비율을 $\theta_j$로 표기한다. 샘플 $N_j$에서 관측되는 실제 heads의 숫자 “flips”를 $z_j$로 표기하자. 마지막으로, 그룹 $j$에서 각각의 $i^{th}$ flip은 $y_{ji}$로 표기하자. 이번 챕터 전체에서 우리는 두개의 그룹이 서로 독립적이라고 가정할 것이다. 한 그룹의 퍼포먼스가 다른 그룹의 퍼포먼스에 영향을 끼치지 않는다. 일반적으로 우리가 가정한 이 독립성 가정이 들어맞는지에 대하여 우리는 실험을 디자인 한다. 우리가 앞으로 실행할 수학적 분석들에서 독립성은 매우 중요한 역할을 한다. 만약에 우리가 두개의 비율들이 서로 독립적이지 않은 상황에 처한다면, 이번 챕터에서의 방법론은 직접적으로 적용이 힘들 것이다. 데이터간의 의존성이 있는 상황에 대한 이야기는 이번 챕터에서 다루지 않는다.

8.1 Prior, likelihood and posterior for two proportions

$\ $ 기저에 놓인 두개의 비율 값들이 있다고 가정해보자($\theta_1$,$\theta_2$).

기저라는 말이 계속해서 나오는데, 영어로는 underlying을 직역한 것이며, 관측 값 너머에 있는 파라미터에 대한 정보 정도로 생각하자

우리가 두 그룹에서 몇몇 데이터를 관측한 이후에, 이 값들에 대한 믿음을 결정지으려 한다. 베이지안 통계학에서는, 우리는 해당 데이터가 없을 때에 각각의 비율들에 대한 우리의 사전 믿음을 특정지어야 한다. 이 상황에서, 사전 믿음에 해당하는 확률 $p(\theta_1, \theta_2)$는 변수 $\theta_1$과 $\theta_2$에 의한 함수이다. 우리가 이 함수에 대한 그래프를 그려본다면, 두개 변수에 의한 함수이므로 3차원 형태의 함수가 된다. 또한 해당 함수는 확률밀도함수이므로, 다음이 성립한다. $\int\int d\theta_1 d\theta_2 p(\theta_1, \theta_2) = 1$.
$\ $이 챕터의 몇몇 적용 사례에서는, 우리의 $\theta_1$에 대한 사전믿음과, $\theta_2$에 대한 사전믿음이 서로 독립이라고 가정할 것이다. 이런 독립의 경우에 문제는 꽤나 간단해질 수 있다. 그러나 꼭 이 두개의 변수들이 서로 독립이어야만 하는 것은 아니다. 독립이라는 개념 자체에 대해 혼동해서 안되는 것은, 독립이라는 개념이 두 변수 사이의 완벽한 인과관계를 보장하는 것은 아니라는 것이다. 단지, 독립인 두 변수 중 한 변수를 알게 되면, 다른 한 변수에 대한 믿음의 범위를 조금 더 좁힐 수 있다.
$\ $동전 던지기 예시에서, 두 변수간의 독립은 다음과 같이 표현할 수 있다. $p(y_1|\theta_1,\theta_2) = p(y_2|\theta_1)$

일반적인 상황에서의 적분을 grid 근사법에서 이산화 시켜 촘촘한 단위 범위에서 sum으로 계산이 가능하다.

$ $한 그룹에서 우리는 데이터 $D_1$를 얻었으며, 총 $N_1$의 시도 중에 $z_1$번 head를 얻었다. 또 다른 그룹에서 우리는 데이터 $D_2$를 얻었으며, 총 $N_2$의 시도 중에 $z_2$번 head를 얻었다. 이는 다음과 같이 표현할 수 있다 $z_1 = \sum_{i=1}^{N_1} y_{1i}$. 또한, $z_1 \in \left\{0, ..., N_1\right\}$ 이며, $z_2 \in \left\{0, ..., N_2\right\}$ 이다. 위와 같은 상황을 간단하게 다음과 같이 표현하자. $D = \left\{z_1, N_1, z_2, N_2\right\}$. 동전을 던지는 사건들의 독립성을 고려하면 $D$의 확률 값은 각각의 던지는 사건에 대한 베르누이 분포 함수의 곱들로 표현할 수 있다.

'Img1'

$D = \left\{2,5,3,7\right\}$인 경우에 어떻게 표현하며 계산할지 직접 써보자.

기저에 놓인 비율들의 믿음에 대한 사후 분포는 일반적인 베이즈 규칙을 활용하여 아래와 같이 표현할 수 있다.

'Img2' 위의 수식에서, 좌항에 있는 $\theta$ 값들은 특정한 값을 지칭하는 것이지만, 우항의 분모에 있는 적분 내에 있는 $\theta_i$들은 가능한 모든 $\theta_i$ 값에 걸친 것을 지칭하는 것임을 혼동하면 안된다.
$\ $지금까지 살펴본 베이지안 규칙에 의한 두비율에 대한 추론은, 우도 함수가 독립적인 베르누이 분포일 때를 살펴봤다. 특정한 사전 분포에 대해 구체적으로 살펴보자. 형식적인 분석과 grid 근사법을 살펴본 후에 MCMC 근사로 넘어가보자. 특히, 우리는 첫째로 Gibbs 샘플링을 살펴볼 것이다. 마지막 섹션에서 우리는 두 비율간의 차이를 평가하는 데에 집중한다.

8.2 The posterior via exact formal analysis

$\ $분석적 방벙을 통해 우리가 베이즈 규칙에 대한 해답을 찾으려 할 때, 어떤 종류의 사전 확률 함수를 사용해야 해당 추론이 가능해질까? 챕터 5에서 우리는 single 비율들에 대한 베르누이 우도 함수에 conjugate한 베타 분포를 배웠기 때문에, 베타 분포가 이에 대한 해답이라고 대답할 수도 있을 것이다. 또한, 우리는 베타 분포의 곱들이 베르누이 함수들의 곱과 conjugate할 것이라고 가늠할 수 있다.
$\ $이 것을 간단히 증명할 수 있다. 첫재로, 베타 분포는 다음과 같은 형태를 갖고 있다. $beta(\theta|a,b) = \theta^{(a-1)} (1-\theta)^{(b-1)}/B(a,b)$
여기에서 $B(a,b)$는 normalizing 항이며, 다음이 성립한다. $B(a,b) = \int_0^1 d\theta\theta^{(a-1)}(1-\theta)^{(b-1)}$. $\theta_1$에 대한 사전분포를 $beta(\theta_1|a_1,b_1)$, $\theta_2$에 대한 사전분포를 $beta(\theta_2|a_2,b_2)$로 표현한다. 그렇다면 아래와 같은 식을 얻을 수 있다.

'Img3'

수식 (8.3)의 좌항은 확률밀도함수이고, 우항의 분자에 해당하는 부분은 베타분포의 곱이다. 이 수식을 이용해, 베이지안 업데이트가 일어나는 과정은 아래 Figure 8.1에 잘 나타나 있다.

'Img4' $\ $위의 그래프는 $\theta_1$, $\theta_2$ 두개의 변수 축에 대한 그림이며, $p(\theta_1,\theta_2)$는 해당 값들이 주어졌을 때, 수직 축에 나타나는 값을 알려준다. contour 그래프 또한 참고하며 베이지안 업데이트 상황을 더 잘 이해해보자. 첫 번째 prior는 각각의 비율 값이 0.50 주변에 있을 것이라는 믿음을 보여주며 베타분포 $beta(\theta|3,3)$을 이용해서, 표현한다. Figure 8.1의 맨 위 두 그래프를 보면, 0.5 주변에 두 파라미터가 존재하긴 하지만, 뾰족한 peak를 형성하지 못하며 이는 높은 uncertainty가 여전히 존재함을 반영하는 것이다. $\theta_1$ 축에 수직하게 확률밀도함수를 잘라보면 나오게 되는 단면은 $\theta_2$에 의해 변하는 베타 분포의 집합들을 보여준다. 여기서 흥미로운 점은 모든 단면들의 모양이 다 같다는 것이며 모두 $beta(\theta|3,3)$으로 표현이 가능하다. 이 상황은 거꾸로 $\theta_2$ 축에 수직하게 자르는 단면을 보아도 마찬가지인데, 이는 두 개의 독립적인 marginal 분포의 곱으로 이뤄진 3차원 그래프라는 것을 반증하는 것이다.
$\ $Contour plot은 각 확률밀도 함수를 바닥과 평행하게 자른 단면들을 보여준다. 결과적으로 사전분포 함수와 우도 함수의 곱으로 사후 분포 함수를 표현해 냈다. 우리가 예전에도 보았지만, 사후 분포는 사전 분포와 우도 함수의 사이에 존재하게 된다. peak point가 어디에 존재하는지 살펴보자.

지금까지 plot들과 함께 소개된 베타 분포를 포함한 각종 수식은 뒤의 Gibbs sampling 이해에 중요한 역할을 하므로, 잘 숙지할 필요가 있다.

8.3 The posterior via grid Approximation

$\ $파라미터 공간이 충분히 작을 때, 우리는 베이즈 룰의 분모에 해당하는 적분 normalizer를 적분이 아닌 sum 값들로 대체할 수 있는 것을 안다. 따라서 아래와 같은 식이 성립한다. 'Img5'

위 식의 첫째 줄에서 $p(\theta_1,\theta_2)$는 확률밀도 이지만, 두 번째 줄에서는 확률질량임에 집중해야한다 (이 확률 질량 $p(\theta_1,\theta_2)$ 값은 discrete point $\theta_1, \theta_2$ 주변의 작은 범위에서의 값으로 본다). 또한, 좌항에서의 $\theta_1$, $\theta_2$ 값들과 우항에서의 값들은 특정한 값들을 타나내지만, 우항에서 분모의 $\theta_1$, $\theta_2$ 값들은 [0,1] 범위에 존재함을 항상 잊지 말자.
$\ $Grid 근사를 사용하는 것의 큰 장점 중 하나는, 우리가 사후 분포의 특정 형태를 이끌어 내기위해 수학적 분석에 의존할 필요가 없다는 것이다. 그러므로, 우리는 우리가 원하는 어떤 사전분포든지 사용할 수 있고, 여전히 사후분포를 근사시킬 수 있다. Figure 8.2는 수학적으로 풀어내기 어려운 형태의 사전분포를 보여준다. 이 Figure에서 보이는 이러한 사전분포는 실제 연구와 어플리케이션에서 쓰이는 형태는 아니며 단지 가상의 어떠한 사전분포도 사용될 수 있다는 것을 보이기 위함이다. 'Img6' Grid 근사는 심지어 사전분포에 대한 수학적 함수가 전혀 존재하지 않더라도 가능하며, point-by-point 곱을 통해 파라미터 공간에서 계산을 가능하게 해준다.

8.4 The posterior via Markov chain Monte Carlo

$\ $수학적으로 적절히 다뤄질 수 없는 우도 함수와 사전분포함수를 우리가 갖고 있다고 가정해보자. 따라서 우리는 현재 수학적 방법만으로는 사후분포에 대해 결정할 수 없는 상황이다. 이에 더해, 파라미터 공간의 차원 수가 너무 많아서, grid 근사 방법으로도 사후 분포를 결정 지을 수 없다면 어떤 방법을 써야할까? 이에 대한 대안으로, 챕터 7에서 우리가 소개했던 것처럼, 사후분포로부터 많은 양의 대표값 데이터들을 생성해내고 해당 대표값들로부터 사후분포를 추정하는 방법을 취해보자. 비록 현재 우리가 다루고 있는 예시에서는 오직 두개의 파라미터만 포함하고 있어서 grid 근사법을 취할 수 있지만, 이 상황에 Metropolis 알고리즘을 적용해보자. 이는 two-dimensional 파라미터 공간에 Metropolis 알고리즘을 적용하는 첫 번째 예시가 될 것이다.

8.4.1 Metropolis algorithm

$\ $챕터 7에서 배운 Metropolis 알고리즘의 기초 과정에 대해 상기해보자.

구체적인 내용은 블로그의 이전 글을 참고하자.

'Img7' Figure 8.3은 사전 분포가 각각의 비율에 있어서 베타 분포의 곱인 상황에서 Metropolis 알고리즘의 적용 예시를 보여준다.

8.4.2 Gibbs Sampling

$\ $Metropolis 알고리즘은 매우 일반적이고 다양하게 적용이 가능하다. 하지만, 이 알고리즘 또한 문제를 갖고 있는데, Proposal 분포가 사후 분포에 맞게 적절하게 튜닝이 돼야한다는 것이다. 만약 Proposal 분포가 너무 좁거나 넓다면, 제안되는 점프의 대다수가 거절될 것이며 random walk는 늪지대 빠진 모양새가 될 것이다! 그러므로 proposal 분포에서는 자유로울 수 있는 다른 샘플 생성 방법론이 있다면 좋을 것이다. Gibbs Sampling이 그에 대한 대안이 될 수 있다.
$\ $Gibbs sampling은 proposal 분포의 필요성을 줄여주지만, 추가적인 방법을 필요로 한다: 우리가 각각의 파라미터들에 conditioned 된 사후 분포로부터 샘플들을 생성해낼 수 있어야 한다. 다르게 말하면, 만약 우리가 모든 $conditional$ 사후 분포인 $p(\theta_1|\theta_2,\theta_3,D), p(\theta_2|\theta_1,\theta_3,D) , p(\theta_3|\theta_1,\theta_2,D)$ 로부터 샘플들을 생성해 낼 수 있다면, Gibbs Sampling을 활용해 $joint$ 사후분포인$p(\theta_1,\theta_2,\theta_3|D)$로부터 샘플들을 생성할 수 있다. 수학적 분석을 사용해서 위의 조건부 사후 분포들을 알아내는 것은 어려운 일이고 심지어 불가능하기도 한다. 다행히 우리가 조건부 사후분포들을 유도할 수 있다고 가정하더라도, 우리는 그것들로부터 직접적으로 샘플들을 생성해내기가 어렵다. 그러므로, 깁스 샘플링은 제한적인 적용 가능성을 갖고 있다고 볼 수 있다. 그러나, 이것이 적용될 수 있는 상황에서 깁스 샘플링은 Metropolis ㅏ알고리즘보다 더 효율적이고 신뢰도가 높다고 말할 수 있다. 깁스 샘플링의 과정은 Metropolis 알고리즘과 마찬가지로 파라미터 공간에 걸쳐 random walk를 진행하는 과정의 일종이다. 이 walk는 임의의 어떤 점에서 시작하며, 각각의 포인트에서 다음 스텝은 오직 현재의 포지션에만 영향을 받는다. 그러므로 깁스 샘플링은 또다른 Markov Chain Monte Carlo 과정의 하나라고 볼 수 있다. Metropolis 알고리즘과 비교했을 때 다른 점은 어떻게 각각의 스텝이 취해지냐는 것이다. walk의 각각의 포인트들에서, 파라미터의 한개가 선택된다. 이렇게 선택되는 파라미터는 임의로 정해지지만, 이 파라미터 선택은 순서를 따라 주기적으로 이뤄진다 : $\theta_1, \theta_2, \theta_3, ...,\theta_1, \theta_2, \theta_3,....$ (파라미터 선택이 계속해서 완전 임의로 이뤄지는 게 아니라 주기적으로 순환하는 이유는, 파라미터 갯수가 수십 또는 수백개가 넘어가는 경우 완전 임의 선택으로는 모든 파라미터 공간을 다 훑기에는 너무 많은 step이 소요되기 때문이다.) 파라미터 $\theta_i$가 임의로 선택됐다고 가정해보자. 조건부 확률인 $p(\theta_i|\left\{\theta_{j\ne i}\right\},D)$로부터 직접적으로 임의 값을 생성해 냄으로써, 깁스 샘플링은 해당 파라미터에 대한 새로운 값을 선택한다. 변하지 않은 값인 $\theta_{j\ne i}$ 와 결합해서 얻은 새로운 값 $\theta_i$가 random walk에서 새로운 포지션을 차지하게 된다. 이후에 해당 과정은 반복된다: 특정 파라미터를 선택하고, 이것의 조건부 사후분포로부터 해당 파라미터에 대한 새로운 값을 얻는다. Figure 8.4는 이 두 과정을 잘 보여주고 있다. 'Img8' 깁스 샘플링은, 제안분포가 오직 파라미터 공간에서의 위치와, 선택된 파라미터에 대해서만 의존하는 Metropolis 알고리즘의 특별한 경우의 하나로 생각될 수 있다. 어떤 파라미터가 선택되던, 해당 포인트에서 해당 파라미터의 다음 값에 대한 제안 분포는 해당 파라미터의 조건부 사후 확률이다. 제안 분포는 특정 파라미터에 대한 사후 확률을 정확하게 반영하기 때문에, 제안된 움직임은 항상 받아들여진다. 이 개념에 대한 더욱 정확한 증명은 Metropolis 알고리즘의 일반화된 형태인 Metropolis-Hastings 알고리즘으로부터 발전시켜야한다. 증명에 대한 디테일은 아래 서적을 참고하자.

Gelman, Carlin, Stern, and Rubin (2004, p. 293).

깁스 샘플링은 완벽한 join 사후분포인 $p(\theta_i|D)$가 수학적 분석으로 결정될 수 없을 뿐더러 직접적으로 샘플링 될 수 없을때 특히나 유용하다. 이런 상황에 대한 특정 예시는 이 책에서 다루지 않지만, 깁스 샘플링의 과정은 조금 더 간단한 상황에서도 충분히 설명될 수 있다. 이번 챕터의 처음에 다뤘던 같은 시나리오에서 계속 이야기를 이어가보자. 우리는 $\theta_1$, $\theta_2$ 두개의 비율을 갖고 있다고 가정했고, 사전 믿음 분포는 베타 분포들의 곱이었다. 사후 분포는 또 다시 베타 분포들의 곱이된다. 이 joint 분포는 아주 쉽게 직접적으로 다뤄질 수 있으며, 깁스 샘플링을 적용할 필요조차 없다. 그러나, 다른 방법론들과의 비교 및 깁스 샘플링에 대한 이해를 돕기 위해 이 사후 분포에 깁스 샘플링을 진행해보고자 한다. 깁스 샘플링을 해내기 위해 우리는 각각의 파라미터들에 대한 조건부 확률 분포를 결정지어야 한다. 조건부 확률의 정의에 의해 다음이 성립한다. 'Img9' 현재 우리의 샘플링 적용을 위해, joint 사후 분포는 수식 8.3과 같은 베타 분포의 곱이다. 그러므로 다음과 같다. 'Img10' 우리의 직관적으로 명백하게 보일 수 있는 것들을 위의 식들을 통해 이끌어 냈다 (직관?): 사후 분포가 독립적인 베타 분포들의 곱이기 때문에, $p(\theta_1|\theta_2,D) = p(\theta_1|D)$가 성립한다는 것! 독립의 정의에 의해 $p(\theta_1|\theta_2,D) = p(\theta_1|D)$ 는 당연히 성립하는 것인데, 이를 위의 두 식을 이용해 해결했다는 것

그럼에도 불구하고~ 이 식의 유도는 일반적으로 분석적 과정의 일부가 필요로 된다는 것을 보여준다. 성공적으로 조건부 사후 확률분포를 결정하면, 그것으로 부터 직접적으로 샘플링을 할 수 있는지 아닌지에 대해 알 수 있다. 이 경우에 조건부 확률들이 베타 분포들이며 특정 컴퓨터 소프트웨어를 사용하면 임의의 베타 값들의 생성상자를 이용할 수 있으므로, 해당 질문에 대한 답은 ‘yes’이다. Figure 8.5는 이러한 시나리오에 깁스 샘플링을 적용한 것에 대한 결과를 보여준다. 'Img11' 각각의 random walk에서 스텝들이 파라미터 축에 평행하다는 것에 주목하자. 각각의 스텝이 오직 하나의 파라미터에 의존하여 변하기 때문에 당연한 일이다. 각각의 점들에서의 walk는 다른 파라미터에 의해 방향을 바꾸며, 스스로 되돌아가거나 같은 방향을 반복하지 않는다. 이러한 성질은 파라미터들에 걸쳐 주기적으로 순서를 따르기 때문이다. ($\theta_1, \theta_2, \theta_1, \theta_2 ...$) Figure 8.5에서 보이는 깁스 샘플링의 결과를 Figure 8.3에서 보였던 Metropolis 알고리즘의 결과와 비교해본다면, $P(D)$값은 거의 비슷한 것을 알 수 있다. 하지만 Metropolis 알고리즘에 의해 생성된 샘플들에서의 대부분의 점들이 여러번 보여졌다는 점을 Figure 8.3은 보여주지 않는데, 이는 해당 점들로부터 멀리 떨어진 점들이 rejected 됐기 때문이다.

필자는 Figure 8.3에 보이지 않는 proposed 움직임들이 있으며, 왜 보이지 않는 지에 대해 설명하려 한 듯 하다.

그러므로, 제안된 $T$번의 점프의 발자취에서, 깁스 샘플링은 $T$개의 distinct한 포인트들을 갖지만, Metropolis sampling 방법에서는 $T$ distinct point들보다는 훨씬 적은 개수의 포인트들을 갖게 된다. 이러한 점에서, Metropolis 샘플들은 깁스 샘플들에 비해 울창한 샘플들의 모습이라고 말할 수 있으며 덜 효율적인 방법론이라는 결론이 내려진다.

8.4.2.1 Disadvantages of Gibbs Sampling

$\ $지금까지, Metropolis 알고리즘 대비 깁스 샘플링의 이점에 대해 강조를 해왔지만, 제약점에 대해서도 짚고 넘어가야 할 필요가 있다.

우리는 각각의 파라미터들이 서로에 의한 조건부 확률을 유도할 수 있어야만 한다.
이러한 조건부 확률 분포로부터 샘플들을 생성해낼 수 있어야한다. $\ $추가적으로 한가지 단점이 더 존재하는데, 깁스 샘플링은 한 번에 한개의 파라미터에 의해서만 변하므로, 변수들간에 매우 높은 상관관계를 보여줄 때는 이 방법이 힘들 수 있다. 나중에 우리는 파라미터들이 강하게 상관관계에 있는 적용 사항에 대해 확인할 것이다. 이는 Figure 16.4에 잘 나타나있다 (p. 347).

해당 그림에서 두개 파라미터가 그리는 공간에서, 좌측상단에서 우측하단까지 대각선으로 이어지는 얇은 선으로 값들이 분포하고 있다. 현재 우리가 이 얇은 산맥같은 공간에 서있다고 생각해보자. 우리가 이 사전분포에서 깁스 샘플링을 진행한다고 상상을 해보면, 이 좁은 산맥같은 공간에서 어떤 파라미터 축으로 발을 딛을지 심사숙고해야한다. 이 산맥은 대각선으로 매우 좁은 형태이기 때문에 넓은 보폭으로 움직이게 되면 우리는 금방 산맥의 벽에 부딪히게 된다. 따라서 우리는 각 발걸음을 매우 작게 가져갈 수밖에 없다. 어떠한 방향으로 움직이는가와는 상관없이 이렇게 벽에 부딪힐 것이다. 그러므로, 우리는 오직 짧은 발걸음만 가져가야하며, 이 대각선 산맥을 천천히 점진적으로 탐험해야한다. 반면에, 만약 우리가 Metropolis 알고리즘을 활용해 샘플링을 진행하고 있다면, 이 알고리즘은 두개 모두의 파라미터를 이용한 점프를 제안하기 때문에, 조금 더 멀리있는 대각선 방향의 포지션으로 제안을 해줄 수 있을 것이다. 이런 경우에 깁스 샘플링에 비해 Metropolis 알고리즘에 더욱 빠르게 산맥을 탐험가능하게 해줄 것이다.

8.5 Summary

$\ $이번 챕터는 이전 챕터에서 배웠던 개념들을 두개 파라미터 공간의 상황에 적용했다. 덕분에 두개가 넘는 파라미터 공간의 확률 분포와 친숙해질 수 있다. 깁스 샘플링이 Metropolis 알고리즘에 비해 일반적으로는 더 효율적이라는 것에 대해 이해하는 것이 중요한데, 이는 각각의 파라미터들에 대한 조건부 사후분포를 사용하기 때문이라는 것을 숙지하자. R의 BUGS 패키지를 통해 결과물을 확인했기 때문에, 완벽한 과정에 대한 이해는 부족할 수 있으므로, 해당 패키지가 어떻게 샘플링은 진행하는지 이해하자.

PREVIOUS [베이지안 추론] Binomial Proportion via Grid Approximation

NEXT [Machine Learning] MLE vs MAP