뜬금없이 TMI부터 털어놓으면.. 이전 시리즈의 넘버링을 잘못 붙였더랬다... 그래서 민망하긴 하지만 다시 5번(사실은 6번째) 글을 써본다.
오늘은 2SLS와 LATE에 대해 글을 쓰려고 하는데, 사실은 직전에 썼던 도구변수의 일종이다. 도구변수를 조금 더 세분화한 개념이라고 보면 좋을 것 같다!
도구변수에 대한 기본개념을 직전 글에 썼는데, 참고해서 보면 조금 도움이 될 지도???
https://blessedby-clt.tistory.com/52
- 2SLS의 기본 개념
- LATE(요게 중요✨✨)의 가정과 기본개념
에 대해 간략하게 써보려고 한다!
1. 2SLS (2 Stage Least Squares)
2 Stage Least Squares. 이름은 굉장히 거창해보이지만, 사실 도구변수를 써먹는 방법의 일종이라고 볼 수 있다.
처치변수와 종속변수 간 내생성이 있을 때, 예를 들어 학업수준(처치변수)와 소득(종속변수)에 둘 다 영향을 미치는 공통의 요소(능력)이라는 요소가 있을 때, 학업수준에는 영향을 미치지만, 소득에는 직접적으로 영향을 미치지 않는 제 3의 변수를 도구변수라고 이야기했었다. 예를 들면 대학교와 집까지의 거리같은..
"대학교와 집까지의 거리"라는 약간 짜쳐보이는(?) 변수를 사용하는 것의 의의는 내생적인 부분(능력이 학업수준에 영향을 미치는 부분)을 도려내고, 외생적인 부분(순수하게 학업이 소득에 영향을 미치는 부분)을 찾아내준다는 것이다.
그러면 우리는
1단계 - 도구변수를 통해 처치변수를 설명한다
2단계 - 도구변수로 예측한 처치변수가 종속변수에 어느 정도의 영향력을 미치는지 확인한다
이 2단계를 거칠 수 있게 된다. (2 stage!)
Least Squares가 붙는 것은 1, 2단계 모두 회귀모형을 사용하기 때문으로 보인다. 대충 수식으로 설명하면 이런 모양인데, 도구변수를 쓰되 2단계를 거쳐서 도구변수를 쓰는 게 2SLS라고 볼 수 있다.
1단계 : $\hat{X_i} = \alpha + \beta_1 * Z_i + \epsilon $
2단계 : $Y_i = \gamma + \beta_2 * \hat{X_i} + u_i $
2. LATE(Local Average Treatment Effect)
사실 앞은 맛보기였고, 진짜 중요한 게 요 부분이다. (TMI: 사실 매번 헷갈리는 부분이기도 하다...)
2021년 조슈아 앵그리스트(호칭은 과감히 생략)가 노벨 경제학상을 수상하게 된 것이 LATE를 통해 인과추론 방법론에 기여한 영향 인 것을 감안하면, 인과추론 계에서 LATE는 꽤나 중요한 요소라고 할 수 있겠다.
LATE의 개념을 설명하기 전에 먼저 기본 가정에 대해 몇 가지 짚고 넘어가려고 한다.
1. 독립성
먼저 도구변수는 잠재적 성과와 잠재적 처치상태와 독립적이여야 한다. 쉽게 설명하면 도구변수는 개인에게 무작위로 배정되는 요소여야 한다는 것이다. 도구변수를 내생성을 해결하기 위해 사용한다는 것을 감안하면, 독립성 가정은 타당해보인다.
2. 배제제약
도구변수는 처치변수에는 영향을 미치지만, 종속변수에는 영향을 미쳐서는 안된다. 즉, 도구변수는 처치변수라는 경로를 통해서만 종속변수에 영향을 미쳐야 한다.
3. 단조성
도구변수의 영향을 안 받을 수 있지만, 만약 도구변수의 영향을 받는다면 그 영향은 모든 사람에게 동일한 방향이어야 한다. 가령 장학금을 주거나, 안 주거나 관계없이 공부를 열심히 하거나, 열심히 하지 않는 사람은 있을 수 있다. 다만, 장학금에 동기부여가 돼서 열심히 하는 사람과 장학금을 준다고 하면 반대로 열심히 안 하고, 안 준다고 하면 열심히 하는 사람은 공존해서는 안 된다.
일단 위 3가지 정도의 가정을 먼저 이해하고, LATE의 컨셉을 이해하면 좋을 것 같다. (사실 대체로 해롭지않은 계량경제학 책이 이런 구성을 띄고 있다.. ㅎㅎ;;)
책 이야기가 나온 김에 개념을 책에 나온 예시로 들어보려고 한다.(사실 이걸 위한 밑밥이었다.)
생년 기준 추첨으로 베트남 파병을 결정하는데, 베트남 파병이 개인의 소득에 긍정적 영향을 미치는지, 부장적 영향을 미치는지, 영향을 미친다면 어느 정도의 영향을 미치는지 연구한 사례가 실제로 있다. 인과추론의 데이터 과학에 LATE 에 대해 상세히 설명한 영상이 있어 이걸 참고해도 좋을 것 같다.
파병이라는 건 개인에게 상당히 큰 리스크다. 목숨이 오고 갈 수 있는 걸 생각하면, 많은 사람들이 사실 피하고 싶은 이벤트일 것이다. 만일 파병 당첨(당첨이 맞을까..)이 되었다고 하더라도, 무슨 수를 써서라도 파병을 가지 않는 사람이 있을 수 있고, 모종의 이유로 당첨이 되지 않더라도 파병을 결정하는 사람이 있을 수 있다. 그리고 당첨이 되면 가고, 말면 안 간다는 사람이 있을 수 있다. 쓰고보니 무슨 회색분자같기도 하다..
아무튼 도구변수 배정 여부에 관계없이 뭔가 하거나, 하지 않는 사람이 있는 반면, 도구 변수 배정 여부에 따라 행동을 결정짓는 사람이 있다.
MBTI처럼 분류해보면,
- 행동을 무조건 하지 않는 사람 - 항시불참자
- 행동을 무조건 하는 사람 - 항시참여자
- 도구변수 배정되면 행동하는 사람(배정되지 않으면 행동하지 않는 사람) - 순응자
- 도구변수 배정되면 행동하지 않는 사람 (반대로 배정받지 않으면 행동을 해버림) - 불응자
이렇게 4타입이 있는데 불응자가 없다는 가정(위에서 단조성 가정)일 때 LATE 분석을 할 수 있다.
그리고 남은 3타입 중에서 항시불참자나 항시불참자는 도구변수의 영향에 관계없이 행동을 하거나, 하지 않는 사람이기 때문에 요 두 타입의 영향력은 빼고, 순수하게 순응자(도구변수 배정 여부에 따라 행동하는 사람)의 영향력을 볼 때 우리는 LATE(Local Average Effect Treatment) 분석을 한다고 일컫는다. 여러 유형 중 순응자 유형에 대해서만 국지적으로 분석을 하기 때문에 Local이라는 표현이 붙는다.
참고로, 청개구리(불응자)가 끼어 있었다면, 도구변수 배정이 처치 여부에 미치는 영향이 +와 - 둘 다 한번에 작용하기 때문에 분석을 진행할 수 없다. 그래서 단조성 가정이 중요하다!
수식을 배제하고 LATE 분석을 하는 방법에 대해 간단히 설명해보면, 어차피 우리에게는 청개구리 불응자가 없기 때문에 간단히 요런 매트릭스를 구할 수 있다.
매트릭스를 보면, 당첨이 되면 파병을 가는 사람 중에는 항시 참여자와 순응자가 섞여 있고, 낙첨이 되면 파병을 가지 않는 사람 중에는 항시 불참자가 섞여 있다.
만약, 당첨이 된 사람 100명 중 파병을 가지 않은 사람이 60명이라고 하면, 항시 불참자의 비율은 60%라고 구할 수 있고, 낙첨이 된 사람 100명 중 그럼에도 불구하고 파병을 간 사람이 10명이라고 하면 항시 참여자의 비율은 10%라고 구할 수 있다.
그러면 자연스레 순응자의 비율은 30%로 구할 수 있다(불응자가 없으므로)
추첨을 받아서 파병을 간 사람의 평균소득에는 항시참여자와 순응자가 섞여 있는데, 우리는 각 타입의 구성비율을 알고 있고, 추첨을 받지 않아도 파병을 간 사람의 평균소득, 즉 항시참여자의 평균소득 역시 구할 수 있으므로 자연스럽게 추첨을 받아서 파병을 간 순응자의 평균소득을 구할 수 있다.
예를 들어 당첨되지 않아도 파병을 간 사람의 평균소득이 5000만원이라고 하고, 파병에 당첨되어서 파병을 간 사람의 평균소득이 6000만원이라고 하면,
5000*0.6 + x*0.3 = 6000
> X = 10000만원으로 파병 처치를 받은 순응자의 소득을 구할 수 있다.
반대로 낙첨을 받아 파병을 가지 않은 사람의 평균 소득에서 파병을 가지 않은 순응자의 소득을 구할 수 있다.
파병을 간 순응자의 평균소득, 파병을 가지 않은 순응자의 평균소득 각각을 비교하면 파병이 소득에 미치는 영향을 파악할 수 있다.
이래저래 길게 설명하기는 했지만, 결국 순응자의 비율을 감안해서 순응자가 받는 처치 효과를 파악하겠다는 것이 LATE의 골자이다!
참고자료 :
대체로 해롭지 않은 계량경제학
인과추론의 데이터 과학 - 인과추론 관점에서의 도구변수
'Statistics' 카테고리의 다른 글
인과추론 학습기 - 회귀 불연속(Regression Discontinuity) (0) | 2023.08.25 |
---|---|
베이즈 통계학을 공부하면 좋은 이유 (0) | 2023.07.29 |
인과추론 학습기 - 04. 도구변수의 기본 개념 (2) | 2023.05.20 |
인과추론 학습기 - 03. 성향점수 매칭(Propensity Score matching) (0) | 2023.04.19 |
인과추론 학습기 - 02. 매칭 추정량과 회귀분석 (matching, regression) (1) | 2023.03.11 |