회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다.
만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다.
그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요하게 바라봐야 한다.
편회귀계수 (Partial Regression Coefficient)
편회귀계수를 간단히 설명하면 특정 설명변수가 종속변수에 순수하게 어느 정도로 영향을 미치는지를 설명하는 계수이다. 다중 회귀 분석(Multiple Regression, 종속 변수를 설명하기 위해 여러 설명변수를 집어넣어 분석하는 경우)에서 각각의 설명변수가 종속변수에 미치는 영향력을 회귀계수(Coefficient)로 볼 수 있다. 또한, 이는 편회귀계수(Partial Regression Coefficient)라고도 볼 수 있다. 왜냐하면 특정 설명변수의 회귀계수는 다른 설명변수를 통제한 상태에서 구해진 값으로, 편회귀계수가 한 단위 달라질 때 종속변수에 어느 정도로 영향을 미치는지에 대한 정보를 제공하기 때문이다.
좀 중언부언하기는 했는데, 수식으로 설명하면 다음과 같다.
\(Y_i = \beta_0 + \beta_1*X_{1i} + \beta_2*X_{2i} + \epsilon_i \)
이런 회귀식이 있을 때, 수식을 통해 우리는 \(X_1\)이라는 변수와 \(X_2\)라는 변수가 모두 \(Y\)에 영향을 준다는 것을 알 수 있다. 이 때, \(\beta_1\)이라는 회귀계수는 \(X_2\)라는 변수가 통제된 상태에서, 순수하게 \(X_1\)이라는 변수가 Y에 미치는 영향력이라고 해석할 수 있고, 이를 편회귀계수라고 부른다.
만일 \(X_1\)이라는 변수가 Y에 미치는 영향력을 보려면,
\(Y_i = \alpha_0 + \alpha_1*X_{1i} + v_i\) 이런 수식으로도 표현할 수 있는데, 이 때의 \(\alpha_1\)와 \(\beta_1\)은 서로 다르다. \(\alpha_1\)는 다른 변수를 통제하지 않은 상태로 \(X_1\)이라는 변수가 Y에 미치는 영향력이라고 볼 수 있는데, 다른 변수가 추가된다면 \(X_1\)이 종속변수에 미치는 영향도가 달라질 수 있기 때문이다.
인과 분석을 할 때 우리는 편회귀계수를 집중해서 보게 될 것이다. 왜냐하면 우리의 관심사는 "처치변수"라는 특정 변수에 집중되어 있고 나머지 변수(공변량)은 장애모수(Nuisance Parameter)로, 선택 편향(Selection Bias)를 제거하기 위한 수단으로만 쓰이기 때문이다. 오로지 나의 관심사는 처치변수가 결과변수에 미치는 영향력, 즉 처치변수의 편회귀계수 뿐이고 나머지 공변량의 회귀계수는 장애 모수로 관심 밖의 추정량이 된다.
즉, 내가 보고 싶은 것은 "공변량이 고정된 상태"에서 내가 어떤 처치를 하느냐(처치변수가 달라질 때)에 따라 결과변수(Outcome Variable)이 얼마나 달라질 수 있는지를 보고 싶은 것이다.
FWL 정리(프리슈-워-로벨 정리; Frisch-Waugh-Lovell Theroem)
이러한 편회귀계수를 구할 때 사용하는 정리 중 하나가 FWL 정리이다. 실무로 통하는 인과추론이라는 책에 따르면 해당 정리는 총 3단계로 이루어져 있는데
1. 편향 제거 단계 : 처치 T를 교란요인(공변량) X에 회귀하여 처치 잔차 \(\tilde{T} = T - \hat{T}\)를 구합니다.
2. 잡음 제거 단계 : 결과 Y를 교란요인(공변량) X에 대해 회귀하여 결과 잔차 \(\tilde{Y} = Y - \hat{Y}\)를 구합니다.
3. 결과 잔차 \(\tilde{Y}\)를 처치 잔차 \(\tilde{T}\)에 대해 회귀하여 T가 미치는 인과효과 추정값을 구합니다.
언뜻 보면 사실 직관적이지는 않다. R이든 파이썬이든 multiple regression 형태로 회귀식을 구성하면 처치변수에 대한 (편)회귀계수를 너무나도 쉽게 구할 수 있는데 굳이 3단계로 나눠서 계산을 복잡하게 할 이유는 무엇인가, 내가 궁금한 건 처치변수가 결과변수에 미치는 영향력인데 잔차 Y에 대해 회귀식을 구성하는 건 무슨 이유란 말인가..
ChatGPT에 물어보니, FWL 정리 사용 시의 이점은 대략 다음과 같았다.
1. 개념적 명확성
데이터 생성과정에 대해 보다 직관적으로 이해할 수 있도록 한다고 한다. 특정 변수가 다른 변수들로부터 어떻게 영향을 받는지 명확하게 분리하여 연구자로 하여금 변수 간의 관계를 잘 이해하도록 도와준다고 한다.
아무래도 한 번에 모든 변수를 넣고 regression을 돌리면, 처치변수 이외에 다른 공변량에 눈이 가기도 하고, 그러다 보면 처치 변수가 결과변수에 미치는 영향력이 직관적으로 눈에 들어오지 않아서 그런 것 같기도 하다.
2. 계산 효율성
큰 데이터 셋이나 모델에서는 모든 변수를 한 번에 분석하는 것이 계산 상 비효율적일 수 있는데, FWL 정리를 사용하여 관심 있는 변수만을 분리하여 분석함으로써 계산 시간과 자원을 절약할 수 있다고 한다.
사실 이 부분에 대해서는 그다지 직관적으로 와닿지는 않았지만, 계산 상의 이점이 있다고 한다.
그러면 FWL 정리를 믿고 써도 되는, 정당화할 수 있는 이유는 무엇일까?
FWL 정리에 대해 검색해보니 matrix 형태로 된 수식이 나와 있는데 이보다는 선형대수적으로 표현하는 편이 이해가 더 잘되어 관련 개념으로 정리를 해보려 한다.
이를 위해서는 orthogonal(직교), span, projection 과 같은 기초적인 선형대수에 대한 지식이 필요하다.
만일 CCTV의 추가도입이 범죄율 감소에 영향을 미치는지 보고 싶다고 가정해 보자. 그렇지만 단순히 CCTV와 범죄율만 두고 회귀식을 구성하면 원하는 효과를 볼 수가 없을텐데, CCTV라는 처치변수와 범죄율이라는 결과변수에 영향을 주는 여러 요인들이 많은데 이를 누락하면 선택 편향이 발생할 수 있기 때문이다.
만일 주택수, 집값, 경찰인력이라는 공변량은 처치변수와 결과변수에 영향을 미치고 있고, 이런 변수들만 통제하면 CCTV와 범죄율의 인과관계를 분석할 수 있다고 가정해본다.
이를 회귀식으로 구성하면
범죄율 ~ CCTV + 주택 수 + 집 값 + 인구 10만명 당 경찰인력
이렇게 표현할 수 있고, 위와 같은 수식을 선형대수적으로 표현하면 아래 그림과 같아진다.
범죄율이라는 종속변수는 주택수, 집값, 인구10만명당 경찰인력, CCTV라는 설명변수로 이뤄진 subspace에 projection할 수 있다. 그리고 해당 subspace에 projection한 결과를 회귀식으로 추정한 추정치\(\hat{범죄율}\)로, 또 실제 범죄율과 추정치의 차이, 즉 추정치와 orthogonal한 vector를 \(\tilde{범죄율}\)로 표현할 수 있다.
이와 비슷하게 우리의 처치변수인 CCTV라는 vector를 다른 subspace인 span{주택 수, 집값, 인구 10만명 당 경찰인력}에 projection할 수 있고, 그러면 마찬가지로 CCTV의 잔차 vector를 구할 수 있다.
그리고 CCTV의 잔차 벡터는 주택수, 집값, 경찰 인력과 같은 공변량과 orthogonal, 즉 독립이라 할 수 있다.
그러면 범죄율에 대한 prediction 값은 CCTV의 잔차 vector에 대해 projection한 값과 나머지 공변량의 subspace에 대해 projection한 값의 합으로 표현할 수 있다. (CCTV의 잔차 vector는 나머지 공변량과 독립이기 때문)
즉, 범죄율의 예측치는 빨간 색 점선과 초록 색 점선의 합으로 표현할 수 있는데, 이 때 빨간색 점선은 CCTV의 잔차(나머지 공변량의 영향력을 제외하고 순수하게 CCTV가 범죄율에 미치는 효과)가 범죄율에 미치는 영향도를 나타낸다.
그런데 빨간 점선은 빨간 실선(범죄율 - 범죄율을 나머지 공변량으로 예측한 값, 즉 나머지 공변량만 사용해서 얻은 범죄율의 잔차)을 CCTV의 잔차에 대해 regression한 값과 똑같다.
즉, 종속변수의 잔차를 처치변수의 잔차에 회귀한 결과는 우리가 보려고 하는 처치변수가 결과변수에 미치는 순수한 효과와 같다는 이야기이므로 FWL 정리는 성립한다.
이런 방식으로 우리는 CCTV와 범죄율에 미치는 효과를 좀 더 집중해서 볼 수 있게 된다.
여기까지, 회귀분석을 할 때 자주 쓰이는 편회귀계수와 FWL 정리에 대해 마무리해보려 한다.
참고자료
'Statistics' 카테고리의 다른 글
인과추론 학습기 - 개입과 뒷문 기준 (2) | 2024.11.01 |
---|---|
인과추론 학습기 - SCM과 인과 그래프 (3) | 2024.10.19 |
매칭(Matching)을 통한 인과추론 : 개념부터 실습까지 (feat. ChatGPT) (2) | 2024.03.25 |
꼬리에 꼬리를 무는 시계열 개념 정리, 정상성부터 공적분까지 (4) | 2024.01.14 |
인과추론 학습기 - 회귀 불연속(Regression Discontinuity) (0) | 2023.08.25 |