요즘 관심을 가장 관심을 갖고 공부하는 분야가 있다면 인과추론(Causal Inference)입니다.
'인과 추론'이 어떤 개념인지는 정확히 몰라도, '인과성'에 대해서는 많이 들어보았을 것이라고 생각합니다. 통계학을 공부하다 보면 '상관관계'라는 개념이 나오고, 그 개념에는 마치 보험 특약처럼 이런 문구가 따라 붙습니다.
상관관계는 인과관계가 아닙니다.
상관관계가 높다고 해서 반드시 인과관계로 설명할 수는 없습니다.
네. 그렇습니다. 대학교에서 과제를 할 때마다 상관분석을 해놓고, 면피성으로 신나게 저 문구를 쓰던 저는 어느덧 사회인이 되고, 데이터 분석가가 되면서 다음과 같은 질문에 맞닥뜨리게 됩니다.
그래서 이렇게 했더니 효과가 있나요?
네. 하지만 이 질문에 대해서는 쉽게 답하기 어려웠습니다.
특정 업데이트 이후, 유저 수가 증가했다고 해서 업데이트가 이유라고 말하긴 어렵습니다. 그 시기에 마케팅 활동 역시 활발했다고 하면, 마케팅 활동의 영향이 주요 원인이 될 것이니까요.
특정 업데이트 이후, 유저의 액션에 별다른 변화가 없더라도 정말 아무런 영향력이 없었는지도 단언하기 어렵습니다. 업데이트 이전과 이후가 굉장히 다른 성격을 보인다고 하면, 애초에 비교가 불가능한 것을 가져다 내놓은 결과이기 때문이니까요.
결국 'A라는 처치가 실제 효과가 있는지, 없는지'를 확인하기 위해서는 처치와 무관한 변수를 통제한 상태에서 처치를 받은 실험군과 처치를 받지 못한 통제군의 지표를 비교하는 것이 가장 정확할 것입니다.
이게 우리가 흔히 생각하는 실험이고, RCT(Randomized Controlled Trials)라고 불리우는 인과추론의 황금률(Golden Rule)입니다. 대표적으로는 A/B 테스트가 있겠네요.
하지만 A/B 테스트를 진행할 수 있는 상황이 쉽게 주어질 수 있는 것은 아닙니다. 그래도 웹 기반의 서비스 환경에서는 (비교적) 쉽게 접근할 수 있겠지만, 그렇지 못한 경우에는 상당히 큰 조직의 의지가 필요할 수 있습니다.
- 강연자 : 이현섭
- 출처 : NDC 2019 이현섭님 발표
게임 회사에서 실시간 A/B 테스트를 하기 위한 플랫폼 개발기를 읽어봤을 때 얼마나 고군분투가 있었는지 짐작할 수 있었습니다. 그렇기 때문에 조직의 의지가 뒷받침되지 않으면 A/B Test는 어려울 수 있습니다.
또, A/B 테스트가 가능하더라도 적용을 하지 못하는 상황이 있을 수 있습니다. 가령 실험군과 통제군을 무작위로 배정했지만, 실험군에서 실험 거부가 가능하고, 통제군에서 실험군으로 들어올 수 있다면 단순히 A와 B의 지표를 비교해서는 안 될 것입니다. 심지어는 실험군이 통제군에 직접적으로 영향을 줄 수 있다면 A/B 테스트를 통해 인과성을 추정하기에는 굉장히 어려운 싸움이 될 것입니다.
그럴 때 우리는 준실험(Quasi-Experiment)에 가깝게 만들어줄 수 있는 아이디어와, 그 아이디어를 써도 된다는 나름의 통계적 근거와 기반을 갖춰 A/B 테스트가 불가능한 상황에서도 인과성을 추론해낼 수 있습니다.
그리고 저는 이런 아이디어와 통계적 기반을 배우고 싶었습니다....
학습자료 소개
실제로 제가 공부하는데 사용한, 또는 사용할 자료들입니다. 인과추론을 위한 분투, 아니 학습을 위한 총알(?)이라고 볼 수 있겠네요.
1. Youtube - 인과추론의 데이터 과학
https://www.youtube.com/@causaldatascience
인과추론의 기초 + 활용 케이스까지 알려줘서 가장 도움을 많이 받고 있습니다.
2. 조슈아 앵그리스트 교수님이 저술하신 책
- 고수들의 계량경제학(시그마프레스)
- 대체로 해롭지 않은 계량경제학
계량경제학 관점에서 인과추론을 다루고 있습니다. 고수들의 계량경제학이 상대적으로 더 쉽고, 대체로 해롭지 않은 계량경제학이 상대적으로 더 어렵습니다.
개인적인 tmi를 덧붙이자면, 현재 대체로 해롭지 않은 계량경제학을 공부 중인데 생각보다 진도가 나가지 않아서 매우 답답하네요...
3. 주데아 펄 교수님이 저술하신 책
- 한국어 : 통계적 인과추론(교우사)
- 영어 원판 : http://bayes.cs.ucla.edu/PRIMER/
컴퓨터 공학자라고 들었는데, 통계적 기반이 있기는 하지만 위의 앵그리스트 교수님께서 쓰신 내용과는 약간 결이 다르다고 느껴집니다.
4. 실습을 위한 교재들
- Quantitative Economics with R : 돈 주고 산 책이긴 한데, 사실 좋은지는 잘 모르겠습니다... 한국어라는데 위안을..
- Causal Inference:the Mixtape
아는 게 많이 부족하지만, 실제 써먹고 싶은 부분이 많아 앞으로 위 교재들을 공부하고 배운 것들을 기록해보려고 합니다.
다음 포스팅은 인과추론에서 말하는 potential outcome에 대한 내용을 기록해보겠습니다(과연?)
'Statistics' 카테고리의 다른 글
인과추론 학습기 - 02. 매칭 추정량과 회귀분석 (matching, regression) (1) | 2023.03.11 |
---|---|
인과추론 학습기 - 01. 인과추론의 핵심문제 (선택편의와 교락) (0) | 2023.02.19 |
ARIMA, SARIMA(계절성 ARIMA) 에 대하여 (2) | 2022.09.28 |
단위근 검정, 자기상관검정에 대해 (0) | 2022.09.18 |
통계학에서 자주 활용되는 확률분포에 대해 (0) | 2022.08.19 |