들어가며 요즘 부쩍 데이터 분석가들 사이에서 인과추론이 핫하다는 느낌을 받는다. 내가 공부를 하고 있기 때문에 더 눈에 잘 보이는 것일 수 있지 않을까 싶기도 하지만.. 처음으로 인과추론 공부를 시작한 2022년과 비교해 보자면, 그때에 비해 인과추론을 학습하는 글들이 많이 늘어난 것을 체감한다. 인과추론이란 어떤 처치가 이루어졌을 때, 그것이 효과를 만들어냈는지, 효과를 만들어냈다면 어느 정도의 영향력이 있었는지를 분석을 통해 추정하는 방법론이다. 만일 AB 테스트 등 실험 설계가 가능한 환경에 있다면, 실험을 통해 처치의 효과를 파악할 수 있겠지만(실험설계를 잘 해내야 하는 상황은 차치하고..), 만일 실험이 불가능한 환경에 속해 있다면 어떻게든 동아줄이라도 붙잡는 마음으로 다른 방법을 찾아내야 ..
들어가며통계학과를 졸업했지만 참으로 부끄럽게도 베이즈 통계를 제대로 공부하지 않아 어쩔 수 없이 역량의 부족으로 빈도주의자(frequentist)로 살아왔다. 빈도주의자든, 베이지안이든 어찌 됐든 결과만 나오면 어떻게든 괜찮다고 생각했는데 인과추론을 공부하든, 머신러닝을 공부하든 알음알음 베이지안 개념이 나오고, 그걸 대충 넘어가야만 하는 일들이 반복되면서 이대로는 안 되겠다는 생각이 들었다. 1분기에는 베이즈 통계학을 공부하며, (매우 얕고도 얕은) 통계 저변을 조금이나마 확장해보려고 한다. First Course in Bayesian Statistical Methods 라는 베이즈 통계학 기초 책을 보며 공부 중인데, 수식을 최소화하여 나만의 언어로 풀어서 글쓰기를 해 보는 것이 목표다! 통계학..
인과효과를 추정하는 방법론 중 하나인 이중차분법에 대한 글을 써보려 한다. 이 글에서는 이중차분법의 기본 개념에 대해 다룬다. (이중차분법이란 무엇인지, 이를 사용하기 위해서는 어떤 가정을 만족해야 하는지)반면, 고급 DID 방법론(예. staggered DID, staggered DID에서 파생되는 Bad comparision 문제, local DID 등)에 대해서는 다루지 않는다.이중차분법에 대해 가볍게 알아보고 싶은 분들께 이 글이 도움이 될 수 있길 바라본다. 들어가며이중차분법에 대한 개념을 본격적으로 설명하기에 앞서 게임 데이터 분석가가 된 상황을 가정해보자. 우리 게임에서 “마법사”는 매우 매력적인 직업이지만 사용하기에 너무 어려워 해당 직업을 선택하는 유저가 적은 상황이다. 이에 대대적으로 ..
오늘은 개입(intervention)과 뒷문기준(frontdoor criterion)에 대한 글을 써보려고 한다.이를 이해하기 위해서는 인과 그래프에 대한 선행지식이 필요하다. https://blessedby-clt.tistory.com/78 인과추론 학습기 - SCM과 인과 그래프오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서blessedby-clt.tistory.com 관련해서 이미 글을 쓴 것이 있어 참고해서 봐도 좋을 것 같다. 개인적으로 개입이나 뒷문기준을 이용해서 분석을 했던 경험은 없지만, 여러 인과추론의 주요 개념을 이해하기 위해서는 개입과 뒷문기준에 ..
오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서는 다루지는 않지만, 베이지안 통계에 대한 이해도가 있으면 아래 설명을 기반으로 심화된 내용을 확장해서 찾아보기 편할 것 같다. 기본 용어SCM (Structural Causal Model) 한글로 그대로 직역하면 구조화된 인과모형이다. 즉, 인과관계를 구조적으로 설명하는 모델로서, 좀 더 자세히 말하면 변수 간의 인과 관계를 명시적으로 수식화하여 표현하는 모델이다. 이러한 모형을 사용하면 인과 관계의 방향성과 크기를 명확히 이해할 수 있다.예를 들어 하루 섭취한 칼로리가 500kcal를 넘어갈 때마다 체중 1kg가 증가..
회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다. 만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다. 그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요..
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다. 매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
들어가며 요즘은 시계열 공부 위주로 진행하고 있다. 당장 "어디다 써먹을거야"라는 목표는 없지만, 시계열 개념을 알아야만 이해할 수 있는 영역들이 있어서 최근에는 시계열 개념을 다시 복습하고 있는 중이다. 일단 전통적인 통계 기반의 시계열(이라고 쓰고 ARIMA라고 읽는다.) 개념 공부를 마무리하는 차원에서 기록을 남긴다. Stationary(정상성), AR, MA, ACF, PACF, Unit Root Test, VAR, Cointegration의 개념 순서대로 정리했다. 개념을 직관적으로 풀어쓰려고 나름대로 노력했지만, 일단은 시계열에 대한 개념이 어느 정도 있는 사람이 한 번 가볍게 개념을 정리하면 좋을 것 같다는 의도로 글을 썼다. 만약 시계열 개념이 없더라도, 이런 개념들이 시계열 공부를 할 때..
오늘은 인과추론 분석 도구 중 하나인 RD(Regression Discontinuity ; 회귀 불연속 설계)에 대한 글을 써 보려고 한다. "회귀 불연속"이라는 단어가 다소 어려워 보이지만, 개념 자체는 가장 직관적이다. 아슬아슬하게 막차를 탄 사람과 막차를 타지 못한 사람을 비교한다면, 이 두 집단은 정말 간발의 차이밖에 나지 않을테니 둘을 비교하면 인과효과를 파악할 수 있다는 뜻이다. 조금 더 구체적으로 예시를 들면 수능 등급을 생각해볼 수 있을 것 같다. 분명 국어(라떼는 언어 영역이었지만..), 수학, 영어 모두 점수는 1점 단위이지만 등급은 1점 차이로 짤없이 갈린다. 만약 96점이 1등급 컷이었다고 하면, 95점이랑 96점은 1점이라는 미미한 차이밖에 나지 않지만, 등급 기준으로는 95점은 ..
베이즈 통계를 얼마 전부터 찍먹하기 시작했다. 현재까지 코세라 인강 하나와 기본 책 한 권을 완독하는데 성공했다. 아직 많이 아는 것은 없지만, "베린이"로서 베이즈 통계를 공부하며 배운 것들을 정리하며, 이 글을 읽는 누군가가 베이즈 통계에 약간이라도 호기심을 가질 수 있도록 영업(?)을 해보려 한다. 1. 베이지안(Bayesian)이 빈도주의(Frequentist)와 다른 점 우리가 가장 기본적으로 배우는 것은 빈도주의(Frequentist)의 관점이다. 각 샘플이 독립적으로 추출된다는 가정 하에 샘플의 추정량/추정치(Estimator)를 기반으로(대표적으로는 평균) 우리가 알고자 하는 모수(Parameter)를 추정하고자 하는 게 빈도주의다. 대표적인 사례는 역시나 여론조사인데, 1. 성별, 연령 ..