베이즈 통계를 얼마 전부터 찍먹하기 시작했다. 현재까지 코세라 인강 하나와 기본 책 한 권을 완독하는데 성공했다.
아직 많이 아는 것은 없지만, "베린이"로서 베이즈 통계를 공부하며 배운 것들을 정리하며, 이 글을 읽는 누군가가 베이즈 통계에 약간이라도 호기심을 가질 수 있도록 영업(?)을 해보려 한다.
1. 베이지안(Bayesian)이 빈도주의(Frequentist)와 다른 점
우리가 가장 기본적으로 배우는 것은 빈도주의(Frequentist)의 관점이다.
- 각 샘플이 독립적으로 추출된다는 가정 하에
- 샘플의 추정량/추정치(Estimator)를 기반으로(대표적으로는 평균)
- 우리가 알고자 하는 모수(Parameter)를 추정하고자 하는 게 빈도주의다.
대표적인 사례는 역시나 여론조사인데,
1. 성별, 연령 등을 고려하여 대표성을 지니는 표본을 잘 추출해서,
2. 사람들의 후보 선호도에 대한 답변을 잘 종합하여, 누가 선거에서 승리할 것인지 지지율을 예측해내는 것은 빈도주의 추론의 대표 사례라 할 만 하다.
여기서 가장 중요한 점은 모수(Parameter)는 고정되어 있고, 우리는 다만 그걸 모르기 때문에 이걸 추정량을 기반으로 추정해내려고 한다는 점인데,
베이지안은 이와 달리 모수(Parameter) 또한 확률적인 요소라고 가정한다. 모수 또한 확률적인 요소이기 때문에 변할 수 있다. 분포에 따라 관측할 때마다 값이 달라질 수 있는 불확정적 요소라고 가정하는 것이 가장 큰 차이이다.
빈도주의에서 말하는 신뢰구간(Confidence interval)과 베이지안에서 말하는 신용구간(Credible interval)의 의미가 다른 것도 그 이유이다.
빈도주의 관점에서는 모수가 정해져 있지만, 표본이 모수를 반영하지 못할 가능성이 있다. 신뢰구간은 실험을 반복하면 95% 확률로 구간 안에 모수가 포함될 수 있다는 뜻이다.
반면 베이지안 관점에서는 모수가 변동할 수 있다. 신용구간은 95% 확률로 모수가 포함될 확률을 의미한다.
언뜻 보이면 비슷해보이지만, "모수가 무조건 이거라면 실험을 반복하면 구간 안에 모수가 계속 관측될거야"라는 것과 "모수가 불확정적이지만 95% 확률로 포함될 정도로 가능성이 높은 모수야" 라는 것은 미묘하게 어감이 다르다.
두 번째로 베이지안 통계의 특징적인 부분은 Prior(사전 지식)라는 개념이다. 사전 지식도 추론에 써먹는다는 것인데, 그래서 사람에 따라 같은 데이터를 보더라도 추론이 달라질 수 있는 게 특징이다. "외계인은 존재해"라고 믿는 사람과 "외계인은 절대 존재하지 않아"라는 사람이 미확인 비행물체를 관측하고 내릴 수 있는 결론은 당연히 다를 수 있다.
- 외계인을 믿는 사람은 미확인 비행물체의 존재로 나의 믿음을 더 공고히 할 수 있고,
- 믿지 않는 사람은 한 두개 정도는 조작된 사진일거야라고 생각하며 무시할 수 있다.
나의 믿음(Prior)와 관측한 데이터(Likelihood)를 적절히 조합해서 추론을 해 내는 것(Posterior)이 베이지안 통계의 기본 토대라 할 수 있겠다.
2. 그래서 베이지안이 왜 좋은가?
표본이 많다면 사실 빈도주의와 베이지안은 크게 차이가 없다. 한 두개의 UFO 사진 발견만으로는 외계인을 믿지 않는 사람이 믿음을 바꿀 수 없지만 어느날 에일리언이 대규모로 침공해 온다면, 즉 데이터가 매우 많아진다면 외계인의 존재를 믿을 수 밖에 없어진다.
오히려 표본이 많다면 빈도주의를 쓰는 게 더 유리하다. CLT(Central Limit Theorem)이라는 "표본이 많으면 표본평균의 분포는 정규분포를 따라요" 라는 치트키 같은 게 있어서 손쉽게 모수를 추정할 수 있기 때문이다.
그러나 빈도주의 방법으로는 "내일 지구가 멸망할 확률은?" 같은 여태까지 관측해 본 적 없는 가설에 대한 추론을 할 수 없다.
이럴 때 베이지안을 고려해 볼 수 있는데,
10만년에 한 번 정도는 지구가 멸망할 수 있어라는 사전 지식을 갖고 있다면, 현재까지 지구가 멸망해오지 않은 관측치(Likelihood)를 조합하여 어떻게든 가설에 대한 추론을 해낼 수 있다.
또 MCMC라는 컴퓨터의 힘을 끌어다 쓸 수 있는 파워풀한 방법이 있다는 것도 굉장한 장점이라 할 수 있겠다.
3. 일반론적인 것 말고 그래서 공부해 본 너는 어떤데?
사실 위 얘기는 어디까지나 일반론적인 이야기다. ChatGPT에 물어봐도 위의 크게 다르지 않을 이야기를 할 것 같다. (사실 내가 ChatGPT를 조금 참고하기도 했다.)
조금 더 베이지안의 매력도를 높이기 위해서는 내 사례를 적절히 섞어서 영업(?)해보는 것도 좋을 듯 하다.
1) 인간의 추론에 베이즈 통계를 덧붙인다.
이미 베이즈 통계가 인간의 추론과 닮아 있기도 하지만, 그러한 베이즈 통계를 다시금 인식에 가져다 쓰는 것에 이점이 있다고 느꼈다.
가령 어떤 사람을 판단할 때 있어, "이 사람은 이런 사람이야" 라고 확정짓기 보다는 오늘의 사람과 내일의 사람은 다를 수 있음을, 확률에 따라 달라질 수 있음을 인지하려고 노력하게 된다. 내가 잘 알지도 못하지만, 그 또한 불확정적이라고 생각하면 조금 섭섭해지는 때가 있어도 금방 풀릴 수 있게 된다.
또, 어설픈 사전지식은 추론에 방해가 되는데 역시나 어설픈 선입견이 다른 사람을 판단하는데 있어 방해요소가 될 수 있음을 인지하려고 노력한다. 단면만 보고 어설프게 사전지식을 가져가버리면 다른 사람을 제대로 파악할 기회가 없어질 수 밖에 없다.
2) 다른 공부로 나아가기 위한 디딤돌
인과추론을 공부할 때도, 머신러닝을 공부할 때도 베이지안 추론에 대한 이야기가 나온다. 인과추론에서 말하는 DAG 개념을 제대로 이해하기 위해서도 베이즈 통계가 필요하다. 또, 나이브 베이지안을 이용한 스팸 분류기나 AB테스트를 베이지안 방법론으로 해보기 이런 것들을 피상적으로만 이해했었는데, 베이즈 통계 기본 개념을 공부하고 나서 다시 본다면 뭔가 이해하는 정도가 달라질 수도 있지 않을까 싶다.
베이지안 방식을 직접적으로 쓸 일은 많이 없겠지만, 베이즈 추론 방식을 차용해서 만든 개념들이 많기 때문에 베이즈 통계를 공부해놓는 것이 도움이 될 수도 있지 않을까 하는 기대감이 있다.
3) 분석 관점의 새로운 프레임워크가 될 수 있지 않을까 하는 기대감
사실 나는 업무에서 직접적으로 통계를 사용하는 일이 많지는 않다. 다만 사고를 함에 있어서 통계학을 전공으로 했다보니 이걸 기반으로 사고를 할 때가 있다. 말로 표현하기는 어려운데, 사고를 함에 있어 자연스럽게 실험군과 통제군을 나눠서 생각하려고 해본다거나, 심슨의 역설을 우려해서 데이터를 유형별로 나눠서 보려고 한다거나 하는 것들이다.
컴퓨터 공학을 공부한 사람과 통계학을 공부한 사람, 경영학을 공부한 사람이 데이터를 바라보는 시각이 다를 수 있는 것처럼 빈도주의 통계만 공부한 사람과 베이즈 통계도 알고 있는 사람의 프레임워크는 달라질 수 있다고 생각한다. 사고의 지평을 조금씩 더 넓힐 수 있도록 새로운 개념을 공부하는 것, 그것이 베이즈 통계를 공부하는 주요 이유다.
학부 때도 사실 베이즈 통계를 공부할 기회가 있었지만, 난이도로 인한 악명으로 인해 섣불리 도전할 엄두를 내지 못했다. 날라리 학부생으로 다니다 뒤늦게 통계를 공부하니 솔직히 개인적으로는 공부가 버겁게 느껴지기도 했다.
하지만, 개념 자체가 빈도주의와 다른 부분이 있다보니 한 두 번씩 베이지안의 정신이 마음으로 이해가 될 때는 뭔가 알 수 없는 희열이 있었다. 한동안 조금 더 공부해볼 예정인데 공부하면서 사고의 지평이 계속 넓어졌으면 하는 바람이다.
'Statistics' 카테고리의 다른 글
꼬리에 꼬리를 무는 시계열 개념 정리, 정상성부터 공적분까지 (4) | 2024.01.14 |
---|---|
인과추론 학습기 - 회귀 불연속(Regression Discontinuity) (0) | 2023.08.25 |
인과추론 학습기 - 05. 2SLS와 LATE의 기본 개념 (0) | 2023.06.29 |
인과추론 학습기 - 04. 도구변수의 기본 개념 (2) | 2023.05.20 |
인과추론 학습기 - 03. 성향점수 매칭(Propensity Score matching) (0) | 2023.04.19 |