들어가며
요즘 부쩍 데이터 분석가들 사이에서 인과추론이 핫하다는 느낌을 받는다. 내가 공부를 하고 있기 때문에 더 눈에 잘 보이는 것일 수 있지 않을까 싶기도 하지만.. 처음으로 인과추론 공부를 시작한 2022년과 비교해 보자면, 그때에 비해 인과추론을 학습하는 글들이 많이 늘어난 것을 체감한다.

인과추론이란 어떤 처치가 이루어졌을 때, 그것이 효과를 만들어냈는지, 효과를 만들어냈다면 어느 정도의 영향력이 있었는지를 분석을 통해 추정하는 방법론이다. 만일 AB 테스트 등 실험 설계가 가능한 환경에 있다면, 실험을 통해 처치의 효과를 파악할 수 있겠지만(실험설계를 잘 해내야 하는 상황은 차치하고..), 만일 실험이 불가능한 환경에 속해 있다면 어떻게든 동아줄이라도 붙잡는 마음으로 다른 방법을 찾아내야 한다.
내 경우도 실험이 불가능한 환경에서 뭐라도 방법이 없을지를 찾아야 했고, 그렇게 찾은 게 인과추론이었다. 아마 많은 데이터 분석가들이 인과추론에 관심을 갖는 건 실험설계가 어려운 혹독한 환경 때문인지도 모르겠다.
약 3년의 기간 동안 알음알음 인과추론을 공부하면서 느낀 건 인과추론을 제대로 공부하려면 통계와 머신러닝에 대한 지식이 필요하다는 것이다. 그것도 꽤나 높은 수준의 지식이 말이다. 그래서 책을 보면서 공부를 하다보면 수식을 이해하는 것에 몰두하고 이에 매몰되어 버리기 쉽다.
그렇지만 앞서 말했듯 인과추론은 실험을 할 수 없더라도 이에 준하는 상황을 만들어내는, 그런 기가 막힌 아이디어들을 통해 발전해 왔다. 이를 잘 써먹기 위해서 수식을 이해하고 이론을 깊게 공부하는 건.. 물론 중요하다. 하지만, 그 이전에 근본적으로 실험과 비슷한 환경을 어떻게 만들어냈을까에 대한 아이디어를 이해하는 게 개인적으로는 더 중요하다고 본다.
혹시나 수식에 겁을 먹고 인과추론 공부를 포기하거나,
혹은 수식에만 매몰되어 인과추론에 재미를 느끼지 못하는 분들이 있다면
이런 책도 있으니, 공부해보시라! 하고 영업하는 마음으로 글을 써본다. (여기까지가 길고 긴 프롤로그..)

본격적인 책 추천!
추천기준
추천 기준은 2가지다.
- 입문을 위한 책은 수식이 적고, 인과추론 분석의 아이디어를 쉽게 이해할 수 있도록 안내해야 한다.
- (실습보다는 이론 위주가 될 수 있지만) 기본 개념부터 차근차근 다지도록 만들 수 있어야 한다.
📖 입문책 (인과추론이 낯설다면?)
💡 입문자 추천 : 통계 배경이 없어도 읽을 수 있는 책들
원인과 결과의 경제학 / 데이터 분석의 힘
두 권의 책을 추천하고는 있지만, 두 책의 결이 상당히 비슷하다.


인과추론에 대한 이론서라는 느낌보다는, 데이터 분석에 관한 교양서에 가까운 느낌이다. (책도 두껍지 않다!)
수식은 거의 없다시피하고, 대신 인과추론에 대한 기본적인 아이디어를 사례를 통해 설명한다.
목차를 가져오면 대충 어떤 느낌인지 감이 올 것 같다.
- 남성 의사가 여성 의사보다 뛰어나다?
- 공부 잘하는 친구와 사귀면 성적이 오를까?
- 텔레비전을 많이 보면 아이들의 머리가 나빠질까?
궁금증을 불러일으키는 목차를 하나하나 따라가다 보면, 아, 인과추론을 대충 이런 식으로 써먹는구나라는 감이 온다.

그렇지만, 인과추론의 기본적인 아이디어에 대해서는 꽤나 충실히 설명한다.
RCT (Randomized Controlled trial, 무작위 대조 실험)이나, Instrumental Variable (IV, 도구변수법), Regression discontinuity (RD, 불연속 회귀) 같은 개념들은 인과추론을 공부하면 무조건 나오는 개념인데, 수식으로 보면 제법 낯설고 어려울 수 있는 개념이다.
가령 텔레비전을 많이 보면 머리가 나빠질까? 라는 질문에 대한 답을 도출해야 한다고 가정해 보자.
텔레비전을 많이 보면 성적이 나빠지는지, 혹은 성적이 나쁜 아이가 텔레비전 시청을 더 선호하는지 겉보기에 구분하기는 어렵다.
그렇지만 일본에서는 "1948~1952년 사이에 텔레비전 방송의 신규 면허가 동결"됐던 시기가 있었다고 한다. 면허가 있어야 텔레비전을 볼 수 있는 건가 요즘 감성에서는 이해하기 어렵지만.. 여하튼 특정 시기에 어떤 지역은 텔레비전 시청이 가능했고, 어떤 지역은 면허 동결을 이유로 텔레비전 시청이 불가능했는데 이때 "면허 동결 여부"를 도구변수로 두고 텔레비전 시청이 성적에 영향을 주었는지 분석을 진행했다고 한다.
이런 느낌으로 사례를 통해 인과추론 분석의 아이디어를 설명하고 있기 때문에 책을 통해 통계적 지식이 없이도 인과추론의 기본 개념을 쉽게 이해할 수 있다..!
📖 개념책 (본격적으로 이론을 공부하고 싶다면?)
💡 초급~중급자 추천 : 회귀분석, 베이즈 통계, 수리통계학 등 기초 통계에 대한 지식이 있어야 이해가 가능한 책들
고수들의 계량경제학

제목이 매우 흥미롭다. 고수들의 계량경제학이라니...! 뭔가 흥미로운 책 제목이지만 여기서부터는 본격적으로 이론을 설명하는 책이기 때문에 통계적 지식이 어느 정도 갖춰지지 않으면 이해하기에 좀 어려울 수 있다. 그래도 수식이 들어가는 책 중에서는 비교적 말랑말랑하게 개념을 설명하려고 하는 편이다. (사부와 제자가 대화하는 형식으로 프롤로그가 진행된다.)
인과추론을 파악하기 위해서는 "다른 모든 조건이 동일한 상태"를 맞추는 것이 무엇보다 중요하다. 조금 과장된 예시를 들면 영양제의 효능을 파악하기 위해 사자를 실험군, 치와와를 대조군으로 두고 건강 상태를 비교할 수 없는 것처럼(이미 종부터 다르므로..) 처치 전부터 이미 다른 두 집단을 비교하면 인과 효과를 파악할 수 없다.
책에서는
- "다른 모든 조건이 동일하다면"을 만족하는 상태가 수식으로 표현하면 어떠한지,
- 그것이 위반된 경우 어떤 문제가 발생하는지,
- 어쩔 수 없이 두 집단에 편향이 발생할 경우 이를 제거할 수 있는 방법론(아이디어)
이 무엇인지를 하나하나 단계적으로 설명해 준다.
그렇지만 그 수식이라는 것이 대부분 회귀분석이기 때문에 회귀분석에 대한 지식이 없거나, 기초적인 수리 통계학 지식이 없으면 책을 이해하기에 어려울 수 있을 것 같다.
(의학 및 사회과학 연구를 위한) 통계적 인과추론

고수들의 계량경제학이 "회귀분석"으로 인과추론을 설명한다면, 통계적 인과추론은 그래프 관점에서 인과추론을 설명한다.
그러니까 성과 변수(변화가 있었는지 알고 싶은 변수), 처치 변수, 그리고 직, 간접적으로 성과변수와 처치변수에 영향을 줄 수 있을 것으로 보이는 공변량 간의 관계를 파악하여 인과적인 효과를 올바르게 해석하는 방법을 알려주는 책이라 할 수 있겠다.
만일 이런 관계를 고려하지 않고 있는 변수, 없는 변수를 냅다 집어넣어서 분석하게 되면 실질적으로 아무 관계가 없는 변수를 인과관계가 있다고 잘못 해석하는 결과가 나올 수 있기 때문에 변수 간의 관계를 정의해서 인과관계를 해석하는 것이 매우 중요하다.
이 책은 그래프 관점에서 인과관계를 어떻게 해석할 수 있는지를 기초부터 차근차근 설명해 준다.
그래프란 무엇인지, 그래프 모형을 인과분석에 적용하기 위한 기본 개념이 무엇인지, 처치(개입)를 그래프 모형으로 어떻게 표현할 수 있는지를 다룬다.
하지만 그래프 모형을 이해하기 위해서는 베이지안 통계에 대한 기본적인 개념을 갖춰야 하기에, 만일 베이즈 정리, 조건부 확률 등의 기본 통계 지식이 없다면 책을 이해하기에 어려울 수 있다.
또, 책에 오역이 좀 있는 편이라 원서(Causal Inference in Statistics: A Primer)를 함께 보는 편을 권장한다.
차원의 저주를 해결하는 방법을 반대로 설명한다거나 (고차원을 저차원으로 바꾸는 것이 차원의 저주를 해결하는 방법인데, 저차원 확률 분포 문제에서 고차원 추정 문제로 넘어갈 수 있다고 설명한다.)
이외에도 번역이 모호한 부분들이 있어 통계 개념을 이해하는 것과 관계없이 책을 이해하기에 어려운 부분이 있었다.
나가며
인과추론을 공부하면서 통계를 어떻게 활용할 수 있는지를 배울 수 있었고 그 과정에서 개인적으로 많은 동기부여를 받기도 했었다. 머신러닝, 딥러닝이라는 강력한 도구가 있지만 통계라는 학문도 인과추론이라는 영역에서 꽤나 걸출하게 사용할 수 있구나.
통계를 이렇게 쓰면 실생활의 문제를 해결할 수 있겠구나 하는 생각들을 하면서 개인적으로 분석 업무나 공부에 많은 동기부여를 받을 수 있었기 때문이다.
그렇지만 이렇게 동기부여를 받을 수 있었던 건 초반 입문 단계에서 재밌는 사례들을 접하면서 개념에 대한 흥미를 붙일 수 있었기 때문인 것 같다. 그래서 인과추론에 관심이 있는 분이 있다면, 처음부터 너무 어렵게 접근하는 게 아니라 흥미롭게 배울 수 있었으면 좋겠다는 마음으로 글을 마무리해본다.
'Statistics' 카테고리의 다른 글
베이지안 통계 - MC, Gibbs Sampler, Metropolis 알고리즘 살펴보기 (0) | 2025.03.12 |
---|---|
베이지안 통계 - 기본 개념 가볍게 살펴보기 (0) | 2025.01.12 |
가상의 게임 데이터로 살펴보는 이중차분법 (feat. 🧙♂️법사야캐요) (0) | 2024.12.30 |
인과추론 학습기 - 개입과 뒷문 기준 (2) | 2024.11.01 |
인과추론 학습기 - SCM과 인과 그래프 (3) | 2024.10.19 |
들어가며
요즘 부쩍 데이터 분석가들 사이에서 인과추론이 핫하다는 느낌을 받는다. 내가 공부를 하고 있기 때문에 더 눈에 잘 보이는 것일 수 있지 않을까 싶기도 하지만.. 처음으로 인과추론 공부를 시작한 2022년과 비교해 보자면, 그때에 비해 인과추론을 학습하는 글들이 많이 늘어난 것을 체감한다.

인과추론이란 어떤 처치가 이루어졌을 때, 그것이 효과를 만들어냈는지, 효과를 만들어냈다면 어느 정도의 영향력이 있었는지를 분석을 통해 추정하는 방법론이다. 만일 AB 테스트 등 실험 설계가 가능한 환경에 있다면, 실험을 통해 처치의 효과를 파악할 수 있겠지만(실험설계를 잘 해내야 하는 상황은 차치하고..), 만일 실험이 불가능한 환경에 속해 있다면 어떻게든 동아줄이라도 붙잡는 마음으로 다른 방법을 찾아내야 한다.
내 경우도 실험이 불가능한 환경에서 뭐라도 방법이 없을지를 찾아야 했고, 그렇게 찾은 게 인과추론이었다. 아마 많은 데이터 분석가들이 인과추론에 관심을 갖는 건 실험설계가 어려운 혹독한 환경 때문인지도 모르겠다.
약 3년의 기간 동안 알음알음 인과추론을 공부하면서 느낀 건 인과추론을 제대로 공부하려면 통계와 머신러닝에 대한 지식이 필요하다는 것이다. 그것도 꽤나 높은 수준의 지식이 말이다. 그래서 책을 보면서 공부를 하다보면 수식을 이해하는 것에 몰두하고 이에 매몰되어 버리기 쉽다.
그렇지만 앞서 말했듯 인과추론은 실험을 할 수 없더라도 이에 준하는 상황을 만들어내는, 그런 기가 막힌 아이디어들을 통해 발전해 왔다. 이를 잘 써먹기 위해서 수식을 이해하고 이론을 깊게 공부하는 건.. 물론 중요하다. 하지만, 그 이전에 근본적으로 실험과 비슷한 환경을 어떻게 만들어냈을까에 대한 아이디어를 이해하는 게 개인적으로는 더 중요하다고 본다.
혹시나 수식에 겁을 먹고 인과추론 공부를 포기하거나,
혹은 수식에만 매몰되어 인과추론에 재미를 느끼지 못하는 분들이 있다면
이런 책도 있으니, 공부해보시라! 하고 영업하는 마음으로 글을 써본다. (여기까지가 길고 긴 프롤로그..)

본격적인 책 추천!
추천기준
추천 기준은 2가지다.
- 입문을 위한 책은 수식이 적고, 인과추론 분석의 아이디어를 쉽게 이해할 수 있도록 안내해야 한다.
- (실습보다는 이론 위주가 될 수 있지만) 기본 개념부터 차근차근 다지도록 만들 수 있어야 한다.
📖 입문책 (인과추론이 낯설다면?)
💡 입문자 추천 : 통계 배경이 없어도 읽을 수 있는 책들
원인과 결과의 경제학 / 데이터 분석의 힘
두 권의 책을 추천하고는 있지만, 두 책의 결이 상당히 비슷하다.


인과추론에 대한 이론서라는 느낌보다는, 데이터 분석에 관한 교양서에 가까운 느낌이다. (책도 두껍지 않다!)
수식은 거의 없다시피하고, 대신 인과추론에 대한 기본적인 아이디어를 사례를 통해 설명한다.
목차를 가져오면 대충 어떤 느낌인지 감이 올 것 같다.
- 남성 의사가 여성 의사보다 뛰어나다?
- 공부 잘하는 친구와 사귀면 성적이 오를까?
- 텔레비전을 많이 보면 아이들의 머리가 나빠질까?
궁금증을 불러일으키는 목차를 하나하나 따라가다 보면, 아, 인과추론을 대충 이런 식으로 써먹는구나라는 감이 온다.

그렇지만, 인과추론의 기본적인 아이디어에 대해서는 꽤나 충실히 설명한다.
RCT (Randomized Controlled trial, 무작위 대조 실험)이나, Instrumental Variable (IV, 도구변수법), Regression discontinuity (RD, 불연속 회귀) 같은 개념들은 인과추론을 공부하면 무조건 나오는 개념인데, 수식으로 보면 제법 낯설고 어려울 수 있는 개념이다.
가령 텔레비전을 많이 보면 머리가 나빠질까? 라는 질문에 대한 답을 도출해야 한다고 가정해 보자.
텔레비전을 많이 보면 성적이 나빠지는지, 혹은 성적이 나쁜 아이가 텔레비전 시청을 더 선호하는지 겉보기에 구분하기는 어렵다.
그렇지만 일본에서는 "1948~1952년 사이에 텔레비전 방송의 신규 면허가 동결"됐던 시기가 있었다고 한다. 면허가 있어야 텔레비전을 볼 수 있는 건가 요즘 감성에서는 이해하기 어렵지만.. 여하튼 특정 시기에 어떤 지역은 텔레비전 시청이 가능했고, 어떤 지역은 면허 동결을 이유로 텔레비전 시청이 불가능했는데 이때 "면허 동결 여부"를 도구변수로 두고 텔레비전 시청이 성적에 영향을 주었는지 분석을 진행했다고 한다.
이런 느낌으로 사례를 통해 인과추론 분석의 아이디어를 설명하고 있기 때문에 책을 통해 통계적 지식이 없이도 인과추론의 기본 개념을 쉽게 이해할 수 있다..!
📖 개념책 (본격적으로 이론을 공부하고 싶다면?)
💡 초급~중급자 추천 : 회귀분석, 베이즈 통계, 수리통계학 등 기초 통계에 대한 지식이 있어야 이해가 가능한 책들
고수들의 계량경제학

제목이 매우 흥미롭다. 고수들의 계량경제학이라니...! 뭔가 흥미로운 책 제목이지만 여기서부터는 본격적으로 이론을 설명하는 책이기 때문에 통계적 지식이 어느 정도 갖춰지지 않으면 이해하기에 좀 어려울 수 있다. 그래도 수식이 들어가는 책 중에서는 비교적 말랑말랑하게 개념을 설명하려고 하는 편이다. (사부와 제자가 대화하는 형식으로 프롤로그가 진행된다.)
인과추론을 파악하기 위해서는 "다른 모든 조건이 동일한 상태"를 맞추는 것이 무엇보다 중요하다. 조금 과장된 예시를 들면 영양제의 효능을 파악하기 위해 사자를 실험군, 치와와를 대조군으로 두고 건강 상태를 비교할 수 없는 것처럼(이미 종부터 다르므로..) 처치 전부터 이미 다른 두 집단을 비교하면 인과 효과를 파악할 수 없다.
책에서는
- "다른 모든 조건이 동일하다면"을 만족하는 상태가 수식으로 표현하면 어떠한지,
- 그것이 위반된 경우 어떤 문제가 발생하는지,
- 어쩔 수 없이 두 집단에 편향이 발생할 경우 이를 제거할 수 있는 방법론(아이디어)
이 무엇인지를 하나하나 단계적으로 설명해 준다.
그렇지만 그 수식이라는 것이 대부분 회귀분석이기 때문에 회귀분석에 대한 지식이 없거나, 기초적인 수리 통계학 지식이 없으면 책을 이해하기에 어려울 수 있을 것 같다.
(의학 및 사회과학 연구를 위한) 통계적 인과추론

고수들의 계량경제학이 "회귀분석"으로 인과추론을 설명한다면, 통계적 인과추론은 그래프 관점에서 인과추론을 설명한다.
그러니까 성과 변수(변화가 있었는지 알고 싶은 변수), 처치 변수, 그리고 직, 간접적으로 성과변수와 처치변수에 영향을 줄 수 있을 것으로 보이는 공변량 간의 관계를 파악하여 인과적인 효과를 올바르게 해석하는 방법을 알려주는 책이라 할 수 있겠다.
만일 이런 관계를 고려하지 않고 있는 변수, 없는 변수를 냅다 집어넣어서 분석하게 되면 실질적으로 아무 관계가 없는 변수를 인과관계가 있다고 잘못 해석하는 결과가 나올 수 있기 때문에 변수 간의 관계를 정의해서 인과관계를 해석하는 것이 매우 중요하다.
이 책은 그래프 관점에서 인과관계를 어떻게 해석할 수 있는지를 기초부터 차근차근 설명해 준다.
그래프란 무엇인지, 그래프 모형을 인과분석에 적용하기 위한 기본 개념이 무엇인지, 처치(개입)를 그래프 모형으로 어떻게 표현할 수 있는지를 다룬다.
하지만 그래프 모형을 이해하기 위해서는 베이지안 통계에 대한 기본적인 개념을 갖춰야 하기에, 만일 베이즈 정리, 조건부 확률 등의 기본 통계 지식이 없다면 책을 이해하기에 어려울 수 있다.
또, 책에 오역이 좀 있는 편이라 원서(Causal Inference in Statistics: A Primer)를 함께 보는 편을 권장한다.
차원의 저주를 해결하는 방법을 반대로 설명한다거나 (고차원을 저차원으로 바꾸는 것이 차원의 저주를 해결하는 방법인데, 저차원 확률 분포 문제에서 고차원 추정 문제로 넘어갈 수 있다고 설명한다.)
이외에도 번역이 모호한 부분들이 있어 통계 개념을 이해하는 것과 관계없이 책을 이해하기에 어려운 부분이 있었다.
나가며
인과추론을 공부하면서 통계를 어떻게 활용할 수 있는지를 배울 수 있었고 그 과정에서 개인적으로 많은 동기부여를 받기도 했었다. 머신러닝, 딥러닝이라는 강력한 도구가 있지만 통계라는 학문도 인과추론이라는 영역에서 꽤나 걸출하게 사용할 수 있구나.
통계를 이렇게 쓰면 실생활의 문제를 해결할 수 있겠구나 하는 생각들을 하면서 개인적으로 분석 업무나 공부에 많은 동기부여를 받을 수 있었기 때문이다.
그렇지만 이렇게 동기부여를 받을 수 있었던 건 초반 입문 단계에서 재밌는 사례들을 접하면서 개념에 대한 흥미를 붙일 수 있었기 때문인 것 같다. 그래서 인과추론에 관심이 있는 분이 있다면, 처음부터 너무 어렵게 접근하는 게 아니라 흥미롭게 배울 수 있었으면 좋겠다는 마음으로 글을 마무리해본다.
'Statistics' 카테고리의 다른 글
베이지안 통계 - MC, Gibbs Sampler, Metropolis 알고리즘 살펴보기 (0) | 2025.03.12 |
---|---|
베이지안 통계 - 기본 개념 가볍게 살펴보기 (0) | 2025.01.12 |
가상의 게임 데이터로 살펴보는 이중차분법 (feat. 🧙♂️법사야캐요) (0) | 2024.12.30 |
인과추론 학습기 - 개입과 뒷문 기준 (2) | 2024.11.01 |
인과추론 학습기 - SCM과 인과 그래프 (3) | 2024.10.19 |