최근 인과분석을 공부하고 있습니다. 아는 게 많지 않아서 요런 Youtube(인과추론의 데이터과학)도 보고 있고, 요런 책들도 보면서 틈나는대로 공부를 하고 있는데, 공부하면서 요즘 제가 갖고 있는 고민들에 적용해볼만한 것들이 많은 것 같아
- 인과분석에 대한 개념
- 인과분석 관점으로 바라본 인생 고민
을 간략하게 기록으로 남겨보려고 합니다.
인과분석 기본개념
인과, 말 그대로 원인과 결과를 다루는 분석이라고 볼 수 있습니다. 그리고 많은 사람들이 찾고자 하는 궁극적인 목표가 아닐까 생각합니다. 마케팅 담당자는 '광고 집행이 실제 매출에 영향을 줄까?'를 알고 싶을 것이고, 정책 입안자는 '정책이 긍정적 효과가 있을까?'를 궁금해할 것이고, 저조차도 업무를 하면서 '특정 이벤트가 유저의 행동 패턴에 영향을 줄까?'를 궁금해했던 적이 많았거든요.
그렇지만 현실에서 이런 관계를 알아내는 것은 쉽지 않습니다. 광고 집행을 해서 기업의 매출이 올랐다고 하더라도, 다른 요인이 개입을 했다면 광고비가 매출에 영향을 미쳤다고 온전히 말하기 어렵기 때문입니다. 확실하게 '광고' 효과를 보기 위해서는 광고를 집행하지 않았더라면 얻었을 매출(반사실, Counterfactual)과 실제 광고를 해서 얻은 매출을 비교하면 좋겠지만, 안타깝게도 반사실에 대한 정보를 얻을 수는 없습니다.
대신 '광고비'라는 요소를 제외하고, 나머지 요인이 비슷한 다른 대조군을 찾아낼 수 있다면 '광고비가 매출에 영향을 줬어요!' 라고 말할 근거에 한 발 더 가까워질 수 있을 것입니다.
누락변수와 내생성
앞서 다른 요인이 개입한다면 원인변수(광고비)가 결과변수(매출)에 영향을 미쳤다고 온전히 말하기 어렵다고 썼는데요. 이에 대해서 조금 더 자세히 써보려고 합니다.
$$ y = b_0 + b_1 * D_i + b_2 * X_i + e_i $$
라는 회귀식이 있다고 가정해보죠. (y : 매출, D : 광고 여부, X : CEO의 경영의지 라고 일단 변수를 지정해볼게요.)
그런데 $ X_i $라는 변수가 있다는 걸 모르고,
$$ y = b_0 + b_1 * D_i + e_i $$
라는 모형만 잡고, 분석을 진행한다면 X에 대한 요소가 $ e_i $라는 오차항에 모두 포함되어 버릴 것입니다. 이러면 운적인 랜덤 요소라고 가정한 오차항은 CEO의 경영의지에 대한 정보를 포함하게 되어버리게 됩니다. 그렇게 되면 어떤 문제가 발생하게 될까요?
일단 첫 번째로 광고 효과의 크기($ b_1 $)를 신뢰할 수 없게 됩니다. CEO의 경영의지라는 것이 애초에 정량화할 수 없는 요소이긴 하지만, 당해에 CEO가 성장 의지가 더 커져서 사업 다각화를 더 시도하기도 하고, 투자를 많이 받아오기도 하고, 능력 있는 사람도 더 채용하고.... 이런 효과들은 오차항에 들어가게 되어 버릴 것이고, 이렇게 실제 모형에 필요한 변수들이 누락된 상태에서의 회귀식은 불편성(Unbiasedness)를 충족하지 못하게 됩니다. 불편성을 충족시키지 못한다는 것은 광고 효과의 크기 자체를 신뢰할 수 없게 되어버린다는 뜻이기도 하구요.
또, CEO의 경영의지는 매출 뿐 아니라 광고에도 영향을 미치게 됩니다. 원인 변수와 결과 변수에 동시에 영향을 미치는 요인을 Confounder라고도 하는데, 이를 통제하지 않으면 원인 변수가 결과 변수에 미치는 영향력을 파악하기 어렵습니다.
그리고 원인 변수(광고)와 결과변수(매출)는 반대 방향으로 효과가 나타나기도 합니다. 그러니까 매출이 높은 기업이 광고를 할 수 있는 여력이 더 많아 매출(원인변수)이 광고(결과변수)에 미치게 되는 역인과관계가 발생할 우려가 있습니다.
이런 내생성 문제를 현실에서 해결하기 어렵기 때문에 인과관계를 분석하는 것은 어렵고,
그럼에도 인과관계를 찾을 때의 이점이 크기 때문에 많은 사람들이 이를 찾기 위한 여정을 하고 있는 것 같습니다.
삶에 적용해보는 인과분석
최근 성장 곡선이 우상향하지 않고, 그냥 제자리에 머물러 있는 것 같다는 생각을 종종 하게 되었습니다. '나의 노력은 정말로 성장을 만들어내는가?'에 대한 질문을 스스로 하게 되더라구요. 그런데 이런 질문이 인과분석에서 찾고자 하는 목표(원인변수 - 노력, 결과변수 - 성장, 둘 간의 관계가 있는가?)와 유사한 부분이 많다는 생각이 들어 이런 프레임을 제 고민에 적용해 보았습니다.
1. 역시나 반사실을 찾는 것은 어렵다.
공부 효과를 알기 위해서는 공부하지 않았더라면 얻게 될 상태와 비교해야 하는데, 이미 공부를 했기 때문에 반대되는 사실을 얻는 것은 현실적으로 불가능합니다. 마찬가지로 제가 공부하지 않았더라면, 이미 공부를 하지 않고 시간을 써버렸기 때문에 공부를 했더라면 얻게 되었을 결과를 알 수 없게 되어 버립니다.
인과분석에서는 이 경우, 반사실에 준하는 대조군(Control Group)을 찾는 방식으로 문제를 해결하려 할 것입니다. 제 경우도 (현실적인 문제를 차치하면) 저와 실력이 비슷하고, 상황이 비슷한 수준인 사람이 공부를 했을 때 / 하지 않았을 때 얼마만큼의 차이가 나는지 본다면 노력으로 인한 성취 효과를 알 수 있겠죠.
하지만 이런 관점으로 제 고민을 바라보니,
- 실제 인과효과를 알 수 있다고 해도, 내가 노력해서 결과를 얻지 않으면 평균적인 효과를 아는 것은 의미가 없다. 결국 정말로 알고 싶었던 건 인과효과가 아니고, 내가 성장하고 있다는 '자기 확신'을 얻고 싶은 것이다.
- 또, Control Group을 찾기 위해 노력하는 과정이 실제 현실에서는 오히려 좌절감만 만들고 끝날 가능성이 크다. 남과 나를 비교하는 것이 정말로 개인의 성장에 도움이 되는 일인지 스스로 의문을 가질 필요가 있다.
라는 결론을 얻게 되어 인과분석에서 추구하는 것과는 미묘하게 다른 결론을 내리고 말았습니다.
2. 역시나 내생성 문제를 해결하는 것은 어렵다.
내생성 문제가 인과 분석을 어렵게 만드는 것처럼, 저 역시도 '노력'과 '성장'의 인과관계를 찾기 위한 여정을 방해하는 내생 요인이 많았습니다.
가령 스트레스를 너무 많이 받으면, 공부는 커녕 아무 것도 못할 때가 많고 또 성취도 자체도 떨어지게 만들 수 있기 때문입니다.
다만, 인과분석에서는 인과효과를 파악하기 위해 내생성 문제를 해결하는 것이 중요했다면, 제 경우에는 그냥 '내생 요인이 있다는 것'을 받아들이는 게 더 중요하지 않을까 하는 생각을 하게 되었습니다.
'everything is endogenous'하기 때문에 애초에 내생성을 통제하는 것이 매우 어려운 일이겠지만, 뭔가를 통제하기 위해 내생 요인을 파악하기보다는 '아, 내가 이번주에는 스트레스를 많이 받았구나, 지난주에는 이런 것들이 성과를 내는데 영향을 줬을 수도 있겠구나' 하고 내생 요인을 스스로를 이해하는 수단으로 삼는 게 인생에는 더 중요한 일일수 있겠다는 생각이 들었습니다.
또, 무언가를 억지로 통제하기 위해 힘들여 노력하기 보다는, 인생이 내 맘대로 안 될 수 있다는 그걸 배우는 게 더 중요하단 생각도 들었습니다. 자기심리학에 optimal frustration - 최적의 좌절 이라는 용어도 있다고 하는데 인생에서는 내생요인 하나하나가 아니라 내생성 그 자체가 중요한 것이 아닌가 싶어졌습니다.
3. 역시나 최적의 모형을 찾는 것은 어렵다.
다만, 인생에서는 최적 모형을 찾는 것 그 자체가 어불성설일 수 있겠다. 성장에 대한 최적 모형 그 자체보다, 모형을 만들어나가기 위한 여정 자체가 더 귀중한 것일 수 있겠다는 것이 오늘의 결론입니다.
'Statistics' 카테고리의 다른 글
통계학에서 자주 활용되는 확률분포에 대해 (0) | 2022.08.19 |
---|---|
주성분 분석(PCA)을 정리해보자! (0) | 2022.06.21 |
기초 선형대수학 개념 정리 (feat.회귀분석) (0) | 2022.05.26 |
감성 시계열 - 정상성, Random-Walk, ARCH에 대한 감성적 견해 (0) | 2021.12.18 |
수리통계학 - EM 알고리즘 (0) | 2021.09.17 |