들어가며
통계학과를 졸업했지만 참으로 부끄럽게도 베이즈 통계를 제대로 공부하지 않아 어쩔 수 없이 역량의 부족으로 빈도주의자(frequentist)로 살아왔다. 빈도주의자든, 베이지안이든 어찌 됐든 결과만 나오면 어떻게든 괜찮다고 생각했는데 인과추론을 공부하든, 머신러닝을 공부하든 알음알음 베이지안 개념이 나오고, 그걸 대충 넘어가야만 하는 일들이 반복되면서 이대로는 안 되겠다는 생각이 들었다.

1분기에는 베이즈 통계학을 공부하며, (매우 얕고도 얕은) 통계 저변을 조금이나마 확장해보려고 한다.
First Course in Bayesian Statistical Methods 라는 베이즈 통계학 기초 책을 보며 공부 중인데, 수식을 최소화하여 나만의 언어로 풀어서 글쓰기를 해 보는 것이 목표다!
- 통계학에 대한 기본 지식을 갖췄지만,
- 베이즈 통계학에는 익숙하지 않은 분들이 가볍게 베이지안 개념을 훑어볼 수 있는 글이 되면 좋겠다.
빈도주의 vs 베이지안 (frequentist vs Bayesian)
빈도주의
빈도주의라고 하니 매우 매우 거창해 보이지만, 쉽게 풀어쓰면 "매우 매우 빈번하게 데이터를 관측하면, 데이터의 특성이 실제 모수(parameter, 우리가 추정하려고 하는 값)를 잘 나타내 줄 거야"라고 표현할 수 있다.
우리가 추정하려고 하는 모수는 이미 어떤 값으로 정해져 있지만(고정된 상수), 신이 아니기에 우리는 그 값을 모른다. 따라서 샘플링한 데이터를 기반으로 모수를 추정하려고 하는 것이 빈도주의의 개념이다. 좀 더 엄밀하게 표현하면 무작위 표본에서 반복적으로 관찰을 하면 모수가 어떤 값으로 수렴하기 때문에 모델을 만들어서 이를 검증할 수 있다는 것이 빈도주의적 관점이다.
출구조사로 예를 들어보자. 우리가 관측하지는 못하지만 특정 후보가 당선될 확률은 정해져 있다. (당연하지만 이미 투표가 끝난 상황에서 특정 후보에 얼마나 투표를 했는지는 빼박 변하지 않는다.)
모든 유권자를 대상으로 조사를 할 수 없으니 일부 유권자를 샘플링해서 데이터를 모으고, 이를 바탕으로 특정 후보의 당선 확률을 맞춘다는 것이 빈도주의라 할 수 있다.
베이지안
"VS"라는 표현을 썼다는 건, 당연하게도 베이지안은 빈도주의와 다른 점이 꽤나 있다는 뜻이다. 근본적으로 베이지안 통계에서는 모수를 어떤 고정된 값으로 보지 않는다. 어떤 고정된 값으로 본다는 것은 이를 상수로 간주한다는 것인데, 베이지안 통계는 모수를 상수로 보는 것이 아니라 어떠한 확률분포에서 샘플링할 수 있는 변수(variable)로 간주한다.
또, 사전확률(prior probability)과 사후확률(posterior probability)이라는 다소 생소한 개념을 사용하고 있는 것이 빈도주의와 다른 점이다. 간단히 말하면 사전에 내가 갖고 있던 주관적 믿음을 검증하기 위해 여러 가지 데이터를 관측하고, 관측한 데이터를 바탕으로 믿음의 수준을 경신해 나가는 콘셉트라고 할 수 있다.
사전확률, 우도, 사후확률 (prior probability, likelihood, posterior probability)
사전확률, 우도, 사후확률은 베이지안 통계에서 매우 매우 중요한 개념이다.
먼저 사전확률(prior probability)은 모수에 대한 주관적 믿음을 정량화한 개념이라고 보면 된다. 그리고 이를 일반적으로 \(p(\theta)\) 로 표현한다.
우도(likelihood)는 주관적 믿음이 맞다는 가정 하에 내가 관측한 데이터가 도출될 확률이라고 할 수 있다. 그리고 이를 \(p( y_1, …, y_n | \theta)\)로 표현할 수 있다.
마지막으로 사후확률은 관측한 데이터에서 모수가 관측될 확률, 좀 더 풀어쓰면 내가 갖고 있던 믿음이 재현될 확률을 의미한다. 수식으로는 \(p(\theta| y_1, …, y_n )\) 으로 표현하고, 베이즈 정리를 써서 사후확률을 계산할 수 있다.
베이즈 정리는 \(P(A|B) = \frac{P(B|A)P(A)}{P(B)}\) 으로 표현되는데, 왼쪽 항을 사후확률로, 오른쪽 항을 사전확률과 우도를 곱한 값에서 P(Y)라는 정규화를 위한 상수를 나눈 값으로 바꿔 표현할 수 있다. P(Y)는 모수마다 데이터가 관측할 확률을 모두 더한 값으로 모수가 연속형일 경우에는 적분을 사용하여 계산한다. 단순히 \(p(y_1, ..., y_n|\theta)p(\theta)\) 로만 표현하면 다 더했을 때의 값이 1이 되지 않을 수 있기 때문에 사후분포의 확률분포를 스케일링하기 위해 넣어서 사용한다.
정리하면 우리는 \(P(\theta|y_1, ..., y_n) = \frac{P(y_1, ..., y_n|\theta)P(\theta)}{P(y_1, ..., y_n)}\) 라는 식을 얻을 수 있고, 이를 통해 사전확률과 우도를 갖고 사후확률을 갱신해 나갈 수 있다.
마지막으로 사전확률, 우도, 사후확률에 대한 예를 간단히 들어보려 한다.
만일 외계인이 있다고 믿는 어떤 사람이 있다고 해보자. 이 사람은 외계인이 있을 확률이 0.001이라고 믿고 있다. (사전확률, \(p(\theta) = 0.001\))
어느 날 이 사람이 자신의 집에서 누군가의 발자국이 바닥에 남아 있고, 노트북은 바닥에 내팽개쳐 있으며, 서랍이란 서랍은 다 열어놓은 상황을 목격했다고 해보자.
이런 행동은 외계인이 몰래 침입해서 해놓은 일이 될 수도 있기에, 외계인이 있다는 가정 하에서 위 상황이 관측될 가능성을 0.8이라 가정해 보자. (\(P(D|\theta_1) = 0.8\))

그러나 외계인이 없다는 가정 하에서는 위와 같은 상황은 도둑의 소행일 가능성이 더 높다. 이때의 가능성은 0.9라고 가정해 보자.
사전확률과 우도를 갖고 사후확률을 갱신하면,
\(\frac{0.001 * 0.8}{(0.001 * 0.8) + (0.999 * 0.9)}\) = 0.008 / 0.8999 = 0.00089 의 값을 얻을 수 있다. 오히려 더 외계인이 있다는 믿음이 줄어들게 되는 결과가 나오는데, 이런 식으로 내 믿음을 데이터를 관측하여 계속해서 갱신해 나간다는 것이 베이지안 통계의 기본 골자이다.
conjugate
이제 여기에 다소 생소할 수 있는 conjugate라는 개념을 덧붙여 보려고 한다. 만일 모수(\(\theta\))의 사전확률과 사후확률이 동일한 분포를 따른다면, likelihood(\(P(y|\theta)\))와 사전확률(\(P(\theta)\))는 conjugate 하다고 한다.
conjugate 하다면 사전확률과 사후확률이 동일한 분포를 갖기 때문에 사후확률을 다루기 쉬워진다는 장점이 있다. 앞서의 식인 \(p(\theta|y_1, ..., y_n) = \frac{p(y_1, ..., y_n|\theta)p(\theta)}{p(y_1, ..., y_n)}\) 에서 \( p(y_1, ..., y_n)\)를 구하는 것이 무척 까다롭다. 지금은 간단히만 써서 그렇지 실제로 해당 부분을 계산하려면 \(\int{p(y_1,...,y_n|\theta)p(\theta)}{d\theta}\)의 작업을 거쳐야 한다. 이 작업이 쉽지 않기 때문에 conjugate 하다는 것은 꽤나 중요한 의미를 가진다.
conjugate 하다의 대표적인 사례로 사전확률 - 베타분포, likelihood - 이항분포인 케이스를 들 수 있다.
베르누이 분포, 이항분포
먼저 베르누이 분포에 대해 간략히 짚어보면, 성공 또는 실패의 결과를 갖고, 성공 확률을 모수로 갖는 분포를 의미한다. 이때의 확률밀도함수(pmf)는 \(p^x (1-p)^{1-x}\)가 나온다.
그리고 이런 베르누이 시행을 여러 번 반복해서 진행하면 이 때는 이항분포를 따른다고 하는데 N번의 시도 중 몇 번을 성공하는지에 대한 결과를 갖는다. 5번 시도 시 3번 성공할 확률 등을 구할 수 있다는 뜻이고 베르누이 분포와 마찬가지로 성공 확률을 모수로 갖는다. 확률밀도함수는 \(n \choose x\) \(p^{x} (1-p)^{n-x} \) 가 나온다. (\(Bin(n, p)\)로 표현한다.)
주어진 성공 확률 하에서 x번의 성공 확률을 관측할 확률을 구하기 위해서 이항분포를 likelihood로 쓴다.
베타분포
베타분포는 일반적으로 사전확률 분포에서 사용한다. 베타분포에 대해 검색해 보면 [0, 1] 범위에서 정의되는 연속확률분포로 표현되며, 확률밀도함수는 \(\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha - 1} (1 - x)^{\beta - 1} \) 를 갖는다. (\(Beta(\alpha, \beta)\)로 표현한다.)
확률밀도함수의 \(\alpha\)와 \(\beta\)를 모수로 갖는데, 사전확률로 사용할 때에는 \(\alpha -1\)을 성공 횟수로, \(\beta-1\)를 실패 횟수를 나타낸다고 가정해서 사용한다. 처음에는 개인적으로 공부하며 갑자기 왜 성공, 실패가 나오는 거야?라고 의아하기도 했다. 그러나 베타분포가 이항분포와 conjugate 하다는 것을 감안하고 보면 대략 그 의미를 이해할 수 있다.
먼저 베타분포의 확률밀도함수에 \(x^{\alpha - 1} (1 - x)^{\beta - 1}\) 라는 항이 들어있는데, x를 p로 치환해서 보면, 이항분포의 모양과 비슷하게 생겼다. 또 gamma 함수가 팩토리얼을 실수 차원에서 확장해서 사용하기 위해 쓰는 것임을 감안하면 \(\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}\) 의 항은 이항분포의 \(n \choose x\) 와 대응된다고 볼 수 있다. 그러면 베타분포는 모수인 성공, 실패 횟수가 정해진 상태에서 성공확률이 얼마나 나올 것인지를 보는 성공 확률에 대한 분포라고 볼 수 있게 된다.
conjugate
베타분포와 이항분포를 연결시켜 보자. 만일 내가 약한 믿음을 갖고 있다면 성공, 실패 횟수를 정의하지 않고 사전 정보로서 아무 관측 정보가 없이 0번씩 관측되었다고 가정할 수 있다. 그러면 사전확률은 Beta(1, 1)로 정의된다. (참고로 Beta(1,1)은 균일분포(uniform distribution)와 동치이다.)
이후에 70번의 성공과 30번의 실패를 관측했다면, 아무런 정보가 없던 내 믿음은 아? 성공 확률 70%에 가까울지도? 라는 생각과 함께 70%에 가깝게 자연스레 갱신이 된다.
이제 사전확률, 우도를 바탕으로 사후확률을 갱신할 수 있는지 수식으로 알아보자.
만일 사전확률은 \(Beta(a, b)\)를 따르고 (\(\theta\) ~ \(Beta(a,b)\)), 주어진 성공확률에 따라 데이터를 관측할 확률은 \(Y|\theta\) ~ \(Bin(n, p)\)을 따른다고 가정해 보자.
\begin{align*}
p(\theta \mid y) &= \frac{p(\theta) p(y \mid \theta)}{p(y)} \\
&= \frac{1}{p(y)} \times \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \theta^{a - 1}(1 - \theta)^{b - 1} \times \binom{n}{y} \theta^y (1 - \theta)^{n - y} \\
&= c(n, y, a, b) \times \theta^{a + y - 1} (1 - \theta)^{b + n - y - 1} \\
&= \text{dbeta}(\theta, a + y, b + n - y).
\end{align*}
그러면 위의 수식을 따라 사후확률은 \(\theta|y\) ~ \(Beta(a+y, b+n-y)\)를 따름을 확인할 수 있다.
여기까지가 베이지안 통계 책의 앞부분에 나오는 기본 개념이다. 최대한 수식을 배제하고 직관적으로 써보려고 노력했는데 오히려 엄밀하지 않게 정의가 되면서 이해가 더 어려울 수 있을지도 모르겠다.
공부를 위해 최대한 개념을 말이나 글로 표현하려고 노력했다는 점에 개인적인 의의를 두며, 글을 마쳐본다.
'Statistics' 카테고리의 다른 글
베이지안 통계 - MC, Gibbs Sampler, Metropolis 알고리즘 살펴보기 (0) | 2025.03.12 |
---|---|
인과추론, 입문을 원하신다면 이런 책은 어떠신가요? (0) | 2025.02.15 |
가상의 게임 데이터로 살펴보는 이중차분법 (feat. 🧙♂️법사야캐요) (0) | 2024.12.30 |
인과추론 학습기 - 개입과 뒷문 기준 (2) | 2024.11.01 |
인과추론 학습기 - SCM과 인과 그래프 (3) | 2024.10.19 |
들어가며
통계학과를 졸업했지만 참으로 부끄럽게도 베이즈 통계를 제대로 공부하지 않아 어쩔 수 없이 역량의 부족으로 빈도주의자(frequentist)로 살아왔다. 빈도주의자든, 베이지안이든 어찌 됐든 결과만 나오면 어떻게든 괜찮다고 생각했는데 인과추론을 공부하든, 머신러닝을 공부하든 알음알음 베이지안 개념이 나오고, 그걸 대충 넘어가야만 하는 일들이 반복되면서 이대로는 안 되겠다는 생각이 들었다.

1분기에는 베이즈 통계학을 공부하며, (매우 얕고도 얕은) 통계 저변을 조금이나마 확장해보려고 한다.
First Course in Bayesian Statistical Methods 라는 베이즈 통계학 기초 책을 보며 공부 중인데, 수식을 최소화하여 나만의 언어로 풀어서 글쓰기를 해 보는 것이 목표다!
- 통계학에 대한 기본 지식을 갖췄지만,
- 베이즈 통계학에는 익숙하지 않은 분들이 가볍게 베이지안 개념을 훑어볼 수 있는 글이 되면 좋겠다.
빈도주의 vs 베이지안 (frequentist vs Bayesian)
빈도주의
빈도주의라고 하니 매우 매우 거창해 보이지만, 쉽게 풀어쓰면 "매우 매우 빈번하게 데이터를 관측하면, 데이터의 특성이 실제 모수(parameter, 우리가 추정하려고 하는 값)를 잘 나타내 줄 거야"라고 표현할 수 있다.
우리가 추정하려고 하는 모수는 이미 어떤 값으로 정해져 있지만(고정된 상수), 신이 아니기에 우리는 그 값을 모른다. 따라서 샘플링한 데이터를 기반으로 모수를 추정하려고 하는 것이 빈도주의의 개념이다. 좀 더 엄밀하게 표현하면 무작위 표본에서 반복적으로 관찰을 하면 모수가 어떤 값으로 수렴하기 때문에 모델을 만들어서 이를 검증할 수 있다는 것이 빈도주의적 관점이다.
출구조사로 예를 들어보자. 우리가 관측하지는 못하지만 특정 후보가 당선될 확률은 정해져 있다. (당연하지만 이미 투표가 끝난 상황에서 특정 후보에 얼마나 투표를 했는지는 빼박 변하지 않는다.)
모든 유권자를 대상으로 조사를 할 수 없으니 일부 유권자를 샘플링해서 데이터를 모으고, 이를 바탕으로 특정 후보의 당선 확률을 맞춘다는 것이 빈도주의라 할 수 있다.
베이지안
"VS"라는 표현을 썼다는 건, 당연하게도 베이지안은 빈도주의와 다른 점이 꽤나 있다는 뜻이다. 근본적으로 베이지안 통계에서는 모수를 어떤 고정된 값으로 보지 않는다. 어떤 고정된 값으로 본다는 것은 이를 상수로 간주한다는 것인데, 베이지안 통계는 모수를 상수로 보는 것이 아니라 어떠한 확률분포에서 샘플링할 수 있는 변수(variable)로 간주한다.
또, 사전확률(prior probability)과 사후확률(posterior probability)이라는 다소 생소한 개념을 사용하고 있는 것이 빈도주의와 다른 점이다. 간단히 말하면 사전에 내가 갖고 있던 주관적 믿음을 검증하기 위해 여러 가지 데이터를 관측하고, 관측한 데이터를 바탕으로 믿음의 수준을 경신해 나가는 콘셉트라고 할 수 있다.
사전확률, 우도, 사후확률 (prior probability, likelihood, posterior probability)
사전확률, 우도, 사후확률은 베이지안 통계에서 매우 매우 중요한 개념이다.
먼저 사전확률(prior probability)은 모수에 대한 주관적 믿음을 정량화한 개념이라고 보면 된다. 그리고 이를 일반적으로 \(p(\theta)\) 로 표현한다.
우도(likelihood)는 주관적 믿음이 맞다는 가정 하에 내가 관측한 데이터가 도출될 확률이라고 할 수 있다. 그리고 이를 \(p( y_1, …, y_n | \theta)\)로 표현할 수 있다.
마지막으로 사후확률은 관측한 데이터에서 모수가 관측될 확률, 좀 더 풀어쓰면 내가 갖고 있던 믿음이 재현될 확률을 의미한다. 수식으로는 \(p(\theta| y_1, …, y_n )\) 으로 표현하고, 베이즈 정리를 써서 사후확률을 계산할 수 있다.
베이즈 정리는 \(P(A|B) = \frac{P(B|A)P(A)}{P(B)}\) 으로 표현되는데, 왼쪽 항을 사후확률로, 오른쪽 항을 사전확률과 우도를 곱한 값에서 P(Y)라는 정규화를 위한 상수를 나눈 값으로 바꿔 표현할 수 있다. P(Y)는 모수마다 데이터가 관측할 확률을 모두 더한 값으로 모수가 연속형일 경우에는 적분을 사용하여 계산한다. 단순히 \(p(y_1, ..., y_n|\theta)p(\theta)\) 로만 표현하면 다 더했을 때의 값이 1이 되지 않을 수 있기 때문에 사후분포의 확률분포를 스케일링하기 위해 넣어서 사용한다.
정리하면 우리는 \(P(\theta|y_1, ..., y_n) = \frac{P(y_1, ..., y_n|\theta)P(\theta)}{P(y_1, ..., y_n)}\) 라는 식을 얻을 수 있고, 이를 통해 사전확률과 우도를 갖고 사후확률을 갱신해 나갈 수 있다.
마지막으로 사전확률, 우도, 사후확률에 대한 예를 간단히 들어보려 한다.
만일 외계인이 있다고 믿는 어떤 사람이 있다고 해보자. 이 사람은 외계인이 있을 확률이 0.001이라고 믿고 있다. (사전확률, \(p(\theta) = 0.001\))
어느 날 이 사람이 자신의 집에서 누군가의 발자국이 바닥에 남아 있고, 노트북은 바닥에 내팽개쳐 있으며, 서랍이란 서랍은 다 열어놓은 상황을 목격했다고 해보자.
이런 행동은 외계인이 몰래 침입해서 해놓은 일이 될 수도 있기에, 외계인이 있다는 가정 하에서 위 상황이 관측될 가능성을 0.8이라 가정해 보자. (\(P(D|\theta_1) = 0.8\))

그러나 외계인이 없다는 가정 하에서는 위와 같은 상황은 도둑의 소행일 가능성이 더 높다. 이때의 가능성은 0.9라고 가정해 보자.
사전확률과 우도를 갖고 사후확률을 갱신하면,
\(\frac{0.001 * 0.8}{(0.001 * 0.8) + (0.999 * 0.9)}\) = 0.008 / 0.8999 = 0.00089 의 값을 얻을 수 있다. 오히려 더 외계인이 있다는 믿음이 줄어들게 되는 결과가 나오는데, 이런 식으로 내 믿음을 데이터를 관측하여 계속해서 갱신해 나간다는 것이 베이지안 통계의 기본 골자이다.
conjugate
이제 여기에 다소 생소할 수 있는 conjugate라는 개념을 덧붙여 보려고 한다. 만일 모수(\(\theta\))의 사전확률과 사후확률이 동일한 분포를 따른다면, likelihood(\(P(y|\theta)\))와 사전확률(\(P(\theta)\))는 conjugate 하다고 한다.
conjugate 하다면 사전확률과 사후확률이 동일한 분포를 갖기 때문에 사후확률을 다루기 쉬워진다는 장점이 있다. 앞서의 식인 \(p(\theta|y_1, ..., y_n) = \frac{p(y_1, ..., y_n|\theta)p(\theta)}{p(y_1, ..., y_n)}\) 에서 \( p(y_1, ..., y_n)\)를 구하는 것이 무척 까다롭다. 지금은 간단히만 써서 그렇지 실제로 해당 부분을 계산하려면 \(\int{p(y_1,...,y_n|\theta)p(\theta)}{d\theta}\)의 작업을 거쳐야 한다. 이 작업이 쉽지 않기 때문에 conjugate 하다는 것은 꽤나 중요한 의미를 가진다.
conjugate 하다의 대표적인 사례로 사전확률 - 베타분포, likelihood - 이항분포인 케이스를 들 수 있다.
베르누이 분포, 이항분포
먼저 베르누이 분포에 대해 간략히 짚어보면, 성공 또는 실패의 결과를 갖고, 성공 확률을 모수로 갖는 분포를 의미한다. 이때의 확률밀도함수(pmf)는 \(p^x (1-p)^{1-x}\)가 나온다.
그리고 이런 베르누이 시행을 여러 번 반복해서 진행하면 이 때는 이항분포를 따른다고 하는데 N번의 시도 중 몇 번을 성공하는지에 대한 결과를 갖는다. 5번 시도 시 3번 성공할 확률 등을 구할 수 있다는 뜻이고 베르누이 분포와 마찬가지로 성공 확률을 모수로 갖는다. 확률밀도함수는 \(n \choose x\) \(p^{x} (1-p)^{n-x} \) 가 나온다. (\(Bin(n, p)\)로 표현한다.)
주어진 성공 확률 하에서 x번의 성공 확률을 관측할 확률을 구하기 위해서 이항분포를 likelihood로 쓴다.
베타분포
베타분포는 일반적으로 사전확률 분포에서 사용한다. 베타분포에 대해 검색해 보면 [0, 1] 범위에서 정의되는 연속확률분포로 표현되며, 확률밀도함수는 \(\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha - 1} (1 - x)^{\beta - 1} \) 를 갖는다. (\(Beta(\alpha, \beta)\)로 표현한다.)
확률밀도함수의 \(\alpha\)와 \(\beta\)를 모수로 갖는데, 사전확률로 사용할 때에는 \(\alpha -1\)을 성공 횟수로, \(\beta-1\)를 실패 횟수를 나타낸다고 가정해서 사용한다. 처음에는 개인적으로 공부하며 갑자기 왜 성공, 실패가 나오는 거야?라고 의아하기도 했다. 그러나 베타분포가 이항분포와 conjugate 하다는 것을 감안하고 보면 대략 그 의미를 이해할 수 있다.
먼저 베타분포의 확률밀도함수에 \(x^{\alpha - 1} (1 - x)^{\beta - 1}\) 라는 항이 들어있는데, x를 p로 치환해서 보면, 이항분포의 모양과 비슷하게 생겼다. 또 gamma 함수가 팩토리얼을 실수 차원에서 확장해서 사용하기 위해 쓰는 것임을 감안하면 \(\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}\) 의 항은 이항분포의 \(n \choose x\) 와 대응된다고 볼 수 있다. 그러면 베타분포는 모수인 성공, 실패 횟수가 정해진 상태에서 성공확률이 얼마나 나올 것인지를 보는 성공 확률에 대한 분포라고 볼 수 있게 된다.
conjugate
베타분포와 이항분포를 연결시켜 보자. 만일 내가 약한 믿음을 갖고 있다면 성공, 실패 횟수를 정의하지 않고 사전 정보로서 아무 관측 정보가 없이 0번씩 관측되었다고 가정할 수 있다. 그러면 사전확률은 Beta(1, 1)로 정의된다. (참고로 Beta(1,1)은 균일분포(uniform distribution)와 동치이다.)
이후에 70번의 성공과 30번의 실패를 관측했다면, 아무런 정보가 없던 내 믿음은 아? 성공 확률 70%에 가까울지도? 라는 생각과 함께 70%에 가깝게 자연스레 갱신이 된다.
이제 사전확률, 우도를 바탕으로 사후확률을 갱신할 수 있는지 수식으로 알아보자.
만일 사전확률은 \(Beta(a, b)\)를 따르고 (\(\theta\) ~ \(Beta(a,b)\)), 주어진 성공확률에 따라 데이터를 관측할 확률은 \(Y|\theta\) ~ \(Bin(n, p)\)을 따른다고 가정해 보자.
\begin{align*}
p(\theta \mid y) &= \frac{p(\theta) p(y \mid \theta)}{p(y)} \\
&= \frac{1}{p(y)} \times \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \theta^{a - 1}(1 - \theta)^{b - 1} \times \binom{n}{y} \theta^y (1 - \theta)^{n - y} \\
&= c(n, y, a, b) \times \theta^{a + y - 1} (1 - \theta)^{b + n - y - 1} \\
&= \text{dbeta}(\theta, a + y, b + n - y).
\end{align*}
그러면 위의 수식을 따라 사후확률은 \(\theta|y\) ~ \(Beta(a+y, b+n-y)\)를 따름을 확인할 수 있다.
여기까지가 베이지안 통계 책의 앞부분에 나오는 기본 개념이다. 최대한 수식을 배제하고 직관적으로 써보려고 노력했는데 오히려 엄밀하지 않게 정의가 되면서 이해가 더 어려울 수 있을지도 모르겠다.
공부를 위해 최대한 개념을 말이나 글로 표현하려고 노력했다는 점에 개인적인 의의를 두며, 글을 마쳐본다.
'Statistics' 카테고리의 다른 글
베이지안 통계 - MC, Gibbs Sampler, Metropolis 알고리즘 살펴보기 (0) | 2025.03.12 |
---|---|
인과추론, 입문을 원하신다면 이런 책은 어떠신가요? (0) | 2025.02.15 |
가상의 게임 데이터로 살펴보는 이중차분법 (feat. 🧙♂️법사야캐요) (0) | 2024.12.30 |
인과추론 학습기 - 개입과 뒷문 기준 (2) | 2024.11.01 |
인과추론 학습기 - SCM과 인과 그래프 (3) | 2024.10.19 |