[베이지안 추론] Binomial Proportion via Grid Approximation

 

$\ $이전 챕터에서는 사전 분포가 베타 분포로 특정될 수 있을 때 어떻게 이항 비율에 대한 추론을 하는 지에 대하여 살펴 보았다. 직접적인 형식적 분석을 통해 쉽게 적분 계산을 해낼 수 있다는 점에서 베타 분포를 사용하는 것은 매우 편리하다. 하지만 만약에 베타 분포가 우리의 사전 믿음을 적절히 표현할 수 없다면 어떨까? 예를 들어, 우리의 믿음이 tri-modal이라고 상상해보자 : 우리의 동전이 tail로 매우 편향 돼있을 수도 있고, 거의 fair할 수도 있고, head쪽으로 매우 편향 돼있을 수도 있다. 어떠한 베타 분포도 이러한 세 개의 혹을 제대로 표현할 수 없다.
$\ $이 챕터에서, 촘촘한 grid들을 $\theta$값들에 걸쳐 표현하고 그에 대한 사전 분포를 정의함으로써 사후 분포에 대해 수치적으로 근사(approximate)해보고자 한다. 이 상황에서 우리는 $\theta$에 대한 사전 분포의 수학적 함수를 필요로 하지 않는다. 그럼에도 불구하고 우리가 원하는 어떠한 $\theta$값에서도 사전 확률 값을 특정할 수 있다. 더 나아가, 우리는 어떠한 분석적인 적분법을 필요로 하지도 않는다. 적분을 할 필요없이, 베이즈 규칙의 분모 부분은 매우 많은 discrete $\theta$ 값들에 대한 합으로 충분히 표현할 수 있다.

Bayes’ rule for discrete values of $\theta$

$\ $이전 챕터에서 봤던 것과 마찬가지로 파라미터 $\theta$는 이항 비율의 값을 나타내며 이것은 동전이 heads가 나올 기저의 경향성 같은 것이다. 이전에 우리는 $\theta$가 구간 [0,1] 사이에서 연속적이라고 가정하였다. 해당 연속 도메인 내에서 $\theta$가 어떠한 값도 가질 수 있다고 가정하였다. 그러므로, $\theta$에 대한 사전 확률,즉, 어떤 $\theta$에서 확률 밀도는 베타 분포와 같은 것이었다.
$\ $이 챕터에서 우리는 우리가 지금까지 가정해왔던 것과는 조금 다르게 유한한 수의 $\theta$ 값의 수가 존재하며 이것에 대하여 모두가 양의 믿음을 보인다고 가정하자. 예를 들어, 우리는 $\theta$값이 .25, .5, .75의 값을 갖는다고 가정한다. 이와 비슷한 예시는 이미 앞의 챕터에서 한 번 본 적이 있긴 할 것이다. 이렇게 유한한 값의 수가 존재할 때 우리의 사전 분포 표현은 확률 밀도가 아닌 확률 질량이라고 표현하며, 베이즈 룰은 다음과 같이 표현된다.
'Img' 위와 같이 베이즈 규칙의 이산 버전을 다루는 데에 있어서 좋은 점들이 몇가지 존재한다. 몇몇 사전 믿음들이 연속 밀도 함수에서 보다 이산 수치들로 표현 됐을 때 계산이 쉽다는 것이다. 또 다른 한가지 이점은, 몇몇 수학적으로 적분이 어려운 함수들을 discrete한 grid들의 값들로 근사해서 표현해 볼 수 있다는 것이다.

Discretizing a continuous prior density

$\ $만약에 우리가 연속적인 사전 밀도에 대하여 이산적 사전 질량의 grid들로 근사할 수 있다면, 우리는 연속적 형태의 베이즈 규칙 대신에 이산 형태의 베이즈 규칙을 사용해 볼 법하다. 다행히도, 몇몇 상황에서 실제로 우리는 이러한 근사를 진행해볼 수 있다. Figure 6.1은 어떻게 연속적 사전 밀도가 좁은 직사각형 형태의 집합들로 나눠 지고 이것인 연속 사전밀도를 근사하는 지를 보여준다.이 렇게 사전 밀도를 이산화시키는 과정은 직관적이다: 범위를 많은 수의 좁은 구간으로 쪼개는 것이다. 각각의 좁은 구간들에 대하여 직사각형들을 그리게 되며, 각 직사각형들의 높이는 좁은 구간에서 가운데에서의 밀도의 값과 같다. 이러한 과정은 Figure 6.1의 가장 맨 위 패널에 잘 표현 돼있다. 이 직사각형이 좁아지면 좁아질 수록 근사 값은 더욱 정확해진다. 밀도 값을 이산화하기 위해 각각의 구간에서 가운데에 있는 이산 $\theta$ 값만을 고려한다. 또한 마지막으로 전체 넓이가 1.0이 되도록 하기위해, 그에 상응하는 값으로 나눠 주게 된다.이렇게 정리되는 이산 형태의 대표 분포는 Figure 6.1의 아래 패널에 잘 나타나 있다. 위 패널에서 아래 패널로 변경이 됨에 따라 y-axis의 스케일이 달라졌음에 주목하자.위의 패널에서 $p(\theta)$는 연속 값에서 확률 밀도를 표현했지만, 아래 패널에서 $p(\theta)$는이산 값에서 확률 질량을 말하고 있다.

'Img2'

6.2.1 Examples using discretized priors

$\ $Figure 6.2는 uniform하게 이산화 된 사전분포를 보여준다. 사전 분포가 특정 이산 지점들에서 정의가 됐기 때문에, 가능도와 사후분포 또한 해당 이산 지점에서만 정의가 된다. 사전 분포는 \(beta(\theta,1,1)\)과 같은 수학적 함수 형태로 나타낼 수 없다. 이것은 단지 이산화 된 $\theta$값들에서의 확률 질량들의 리스트라고 볼 수 있다. 마찬가지로, 사후 분포의 형태 또한 수학적 형태로 나타낼 수 없다. 사후 분포에 대한 계산들은 형태가 얼마나 잘 들어맞는 지에 대한 정보를 함수로 제공하지 못한다.
$\ $Figure 6.2의 왼쪽 편에 있는 그림들은 굵직하게 이산화된 경우를, 오른쪽 편에 있는 그림들은 매우 촘촘하게 이산화된 경우를 각각 보여준다. 오른쪽 그림들은 Figure 5.2의 그림들과 비교해보면, 거의 매우 비슷함을 알 수 있다. 'Img3' $\ $ 비록 매우 넓은 폭으로 이산화된 경우에도 $p(D)$를 계산하는 데에 있어서는 훌륭함을 보여준다 (베이즈 규칙의 분모). 하지만, HDI 범위는 두 경우에서 근사 값이 꽤나 다르다. 촘촘한 이산화에서만큼 좋은 성능을 보여주지 못한다.

$\ $Figure 6.3은 약간은 특이한 모양의 사전 분포가 이산화된 경우를 보여준다. 여기에서 우리는 사전분포의 이산화의 큰 이점을 확인할 수 있는데, 베타 함수의 경우는 이러한 형태의 사전 분포를 모방할 수 없다. 그럼에도 불구하고, 베이즈 규칙을 적용해 얻은 사후 분포는 사전 분포가 허용하는 선에서는 정확하다고 할 수 있다. 'Img4' $\ $위의 예시에서 확인한 것 처럼, 베타 사전 분포가 묘사할 수 없는 함수들도 근사법을 활용하면 가능하게 할 수 있다. 베타 사전 분포는 꽤나 제한된 범위의 믿음의 형태들만 표현할 수 있다. 비록 우리가 더욱 복잡한 수학적 수식을 활용하여 위와 같은 사전분포를 표현 해 볼 수는 있겠으나, 그와 같은 수학적 형태는 베이즈 규칙의 분모 부분을 적분이 불가능한 경우가 대부분일 것이다.

6.3 Estimation

$\ $사후 확률 질량의 전체 리스트는 파라미터 값에 대한 완벽한 estimate를 제공한다. 하지만, 편의와 meaningful을 위해 요약이 될 수 있다. Figure 6.2와 Figure 6.3은 사후 확률 분포의 요약된 특징인 평균 값과 95% HDI를 보여주고 있다.
$\ $ $\theta$의 평균은 일어날 확률에 weighted된 파라미터 값들의 단순 합으로 볼 수 있으며, 형식적으로는 다음과 같이 표현된다. 'Img5' $\ $각 grid 포인트들에서 이산화된 $\theta$값들에 대한 합이며, $p(\theta|D)$는 각 grid 포인트들에서 확률이라고 볼 수 있다.
$\ $HDI는 다음과 같이 정의된 다는 점을 상기하자. ‘HDI 내의 어떠한 점을 잡더라도 해당 점에서의 확률은 HDI외부 점의 확률보다 높으며, 95% HDI 내 모든 점들의 전체 확률은 95%이다.’ 현재 여기서 우리는 이산 질량들을 다루고 있으므로, 해당 구간들의 질량들의 합이 정확히 95%가 안될 가능성도 있다.이러한 이유에서 Figure 6.2와 Figure 6.3에서 보이는 HDI 질량들은 미세하게 95%보다 크다.
$\ $Figure 6.4는 bimodal 사후분포의 95% HDI를 보여준다. 여기에서 HDI는 두개의 구간으로 분리됐다. 앞에서 HDI의 정의를 다시 살펴보면 이에 대한 이유를 이해할 수 있다. Grid 근사의 매력적인 점 중 하나는 multimodal HDI이더라도 쉽게 결정될 수 있다는 것이다. 'Img6'

6.4 Prediction of subsequent

$\ $베이지안 추론의 또다른 목표중 하나는 이후 데이터가 기존의 관측 데이터에 병합이 됐을 때 이에 대한 예측을 하는 것이다. 지금까지 그래왔던 것처럼, 관측 된 데이터의 집합을 $D$로 표현하고, 파라미터 $\theta$에 대한 사후분포를 $p(\theta|D)$로 표현하자. 다음 $y$값에 대한 예측된 확률은 단지 각 $D$하에서 $\theta$가 나올 확률인 $p(\theta|D)$와 $p(y|\theta)$를 $\theta$값에 대해 적분한 것과 같다. 'Img6' 이를 다시 살펴보면 첫째 줄의 $p(\theta|D)$는 확률 밀도이며 둘째 줄의 해당 값은 확률 질량으로 볼 수 있다. 특히, $y=1$인 경우에, 식 (6.3)은 아래와 같다. ![‘Img7’](https://imgur.com/mUL5G2c.png

6.5 Model Comparison

$\ $베이지안 추론의 세번 째 목표는 모델간의 비교라고 할 수 있다. 우리가 $M1$, $M2$ 두개의 모델을 갖고 있다고 해보자. 이 때 각각의 사전 믿음은 $p(M1)$, $p(M2)$라고 하자. 우리는 사후 믿음에 해당하는 $p(M1|D)$와 $p(M2|D)$를 결정하고자 한다. 식은 다음과 같을 것이다. 'Img7' 여기에서 각각의 evidence들은 다음과 같을 것이다. 'Img8' 또한, grid 근사의 경우에서 적분 부분은 시그마로 표현이 된다. 'Img9' 마지막 모델 비교를 위한 수식은 다음과 같이 된다. 'Img10'

6.6 Summary

$\ $이번 챕터에서 우리는 연속적인 $\theta$의 경우에도 이산화 된 값의 grid로 표현함으로써 근사할 수 있다는 것을 보여줬다. 이러한 접근의 안좋은 점은, 근사가 오직 gird의 density에 관해서만 괜찮게 작동한다는 것이다. 그러나 이 접근의 좋은 점들도 확인 할 수 있었다. 우리는 우리가 특정할 수 있는 사전 분포에 제약을 받지 않고 자유롭게 다양한 사전 분포들을 이 방식으로 표현할 수 있다는 것이다. 즉, 우리는 더이상 베타 분포에 매달릴 필요가 없다는 것이다. 또다른 장점들 중 하나는 우리가 HDI region들을 찾는데에 있어서 이산 근사를 사용할 수 있다는 것이다.