통계학도로서, 회귀분석은 오아시스 같은 존재이다.
분명 많이 공부해서 닿을 듯 하면서도,
모형 진단 이후로 넘어가면 '뭘 어쩌랬더라?' 싶어서 순식간에 거리가 멀어져 버린다.
마치 '집합' 부분만 너덜거리는 수학의 정석처럼,
(7차 교육과정 세대 소리질러!)
매번 처음으로 회귀하는 회귀분석을 더 이상 좌시할 수 없기에..
자세하게 정리는 못 하더라도, 이번 기회에 간략한 키워드라고 정리해두려고 한다.
사실 지난 번에 회귀분석을 일부 정리해두었는데,
다시 소름돋게 처음으로 회귀해버린 탓도 있다.
2020/11/09 - [Statistics] - 헷갈리는 회귀분석의 기록(1) - 회귀분석의 가정 및 결정계수의 의미
회귀분석의 가정은 써 있는 책마다 조금씩 다르긴 하지만,
적어도 학부 시절에 배웠던 가정은 크게 4가지이다.
-
선형성
-
오차항의 등분산성
-
오차항의 독립성(= 자기상관 X)
-
오차항의 정규성
문제는 그 다음부터이다.
주어진 데이터에서 (별도의 조치 없이)이런 가정을 모두 만족하는 모형을 만들 수 있을까?
이런 가정이 깨지게 된다면, 회귀분석 모형은 가치를 잃어버리게 되는 것일까?
안타깝게도 학부 시절 배웠던 교과서에서는 이런 문제에 답을 일러주지는 않았다.
'회귀분석의 가정 -> 진단 -> 다중공선성, 이분산성 등 일부 해결이 가능한 문제에 대해 Remedy한다'는 식의 목차만이 얄궂게 반길 뿐이다.
그동안 회귀분석을 쓸 일이 전혀 없었기 때문에, 이런 문제를 실무에서는 어떻게 활용할 지에 대해서는 전혀 깜깜이었는데, (이전에는 리서치 업계에 잠시 몸 담았는데, 통계라고 쓴 건 '평균' 정도가 대부분이었다.)
'데이터 과학을 위한 통계'라는 책에서 이에 대한 일부 답을 찾을 수 있었다.
잔차의 분포는 주로 공식적인 통계적 추론의 유효성과 관련이 있으므로 예측 정확도를 중요하게 생각하는 데이터 과학자들에게는 별로 중요하지 않다.
(중략)
데이터 과학자가 신경 쓰는 것 한 가지는, 잔차에 대한 가정을 기반으로 예상 값에 대한 신뢰구간을 계산하는 방법이다.
책의 내용대로라면, 예측을 목표로 모형을 설계할 경우, 잔차의 분포에 대한 가정은 그리 중요하지 않고,
공식적인 통계적 추론을 진행할 경우에만 잔차의 분포에 대한 가정을 고려한다는 볼 수 있다.
오차항의 이분산성이 있더라도,
(극단적으로 모형을 폐기해버릴 정도로 못 쓰게 되는 게 아니라)
예측값이 어떤 경우에는 맞고 어떤 경우에는 틀릴 수 있다는 불완전성을 내포하게 된다는 것이다.
계량경제학 서적에도 용어만 다를 뿐 비슷한 말이 쓰여 있다.
- 이분산성을 내포하고 있을 경우, 추정치의 불편성은 만족하지만, 효율성은 만족하지 못한다.
- 즉, 추정치의 분산이 커지기 때문에 추정치 예측 시, 신뢰구간의 범위가 커지게 되고
- 더 나아가 분산 자체가 biased 하기 때문에 통계적 추론 시 t값을 잘못 계산하게 될 가능성이 있다는 것이다.
- 오차의 독립성이 깨진 경우(=자기상관이 있을 경우)에도 추정치의 불편성은 만족하지만 효율성은 만족하지 못한다.
선형성이 깨진 경우나, 정규성이 깨진 경우에도
1) 선형성이 깨진 경우 -> 비선형 모델을 써야 예측력이 높아지고,
2) 정규성이 깨진 경우 -> 정규성을 만족하는 모델을 만들어야 추정치의 값이 신뢰성을 갖게 되지 않을까 추측해본다.
그러면 이러한 회귀분석의 가정이 깨졌는지, 모형을 어떻게 진단할 수 있을까.
기본적으로는 plot을 보고 판단한다.
R에서는 plot 함수로 회귀분석 모형을 진단하는데 필요한 그래프를 제공해준다.
당장 residauls vs fitted values 그래프로도 볼 수 있는 정보가 많다.
residual(잔차항)이 0을 중심으로 랜덤하게 분포하고 있다면, 해당 모형은 선형 모델로 추정할 수 있다.
동시에 등분산성을 만족한다고 볼 수 있다.
크게 벗어나는 점이 없다면 이상치를 고려하지 않아도 된다.
안타깝게도 해당 plot은 이분산성, 선형성, 이상치가 모두 존재하는 듯 하다.
Normal Q-Q plot으로는 정규성을 확인할 수 있다. 직선을 중심으로 standardized residual이 놓여있으면 해당 모형이 정규성을 따른다고 볼 수 있지만, 다음과 같이 선을 벗어나 있으면 정규성을 만족하지 못할 수도 있다고 판단한다.
plot을 보는 것 이외에도 해당 모형이 회귀분석의 가정을 만족하는지 판단하는 검정 방법들도 있다.
각각 간략하게 정리하면 다음과 같다.
(1) 오차항의 이분산성 : White test, Breusch-Pagan test, goldfeld-Quandt Test 등을 통해 이분산성 검정 가능.
(2) 오차항의 자기상관 : Durbin-Watson test
(3) 오차항의 정규성 : shapiro test
기타 변수 간 다중공선성의 경우, VIF라는 지수로 확인 가능하다.
회귀분석의 가정에 어긋난 모형의 경우, 이후 처리를 해줘야 하는데..
사실 그 이후에 대해서는 이론적으로 배우기는 했어도, 실제 어떻게 써먹는지를 몰라서 더 공부를 해야할 것 같다.
애송이의 공부.. 갈 길이 멀다.
'Statistics' 카테고리의 다른 글
수리통계학 - MLE와 MVUE에 대하여 (2) | 2021.08.28 |
---|---|
수리통계학 - 추정량을 선택하는 기준에 대하여 (0) | 2021.08.10 |
시계열 분석 - ARIMA 모형 정리 (0) | 2021.04.17 |
k means clustering에 대한 고찰 (0) | 2021.01.09 |
헷갈리는 회귀분석의 기록(1) - 회귀분석의 가정 및 결정계수의 의미 (0) | 2020.11.09 |