원래는 시계열을 공부해서 정리하려고 했는데, 회귀분석이 기억이 안 나서 회귀해버리고 말았다. 분명 회귀분석의 Regression이 그 회귀가 아닐텐데, 어쩐지 통계 공부를 하려고 마음을 먹으면 회귀분석으로 돌아가게 된다.
회귀분석은 공부할 때마다 늘 새로운데..
매번 같은 내용을 공부하면서도, 다시 몰랐던 걸 알게 되면 거기서 오는 전율이 있다.
전율도 좋기는 하지만, 이번에는 정말로 헷갈리는 부분을 정리해서, 기억의 휘발을 줄여보려고 한다.
이해가 안 가는 걸 억지로 이해력을 주입시켜서 기록하는 거라, 틀린 부분이 있을 수도 있는데
혹시 틀린 부분이 있다면 알려주시면 감사하겠습니다. 😘
1. 회귀분석의 가정
통계학 전공인 '회귀분석'과목에서 배웠던 가정과, 경제학 전공인 '계량경제학'과목에서 배웠던 가정이 조금 미묘하게 달라서 매번 헷갈린다. 수식 없이 직관적으로 이해하기에는 '계량경제학'에서 배웠던 부분이 더 좋았던 것 같아서 같이 정리해둔다.
통계학 전공에서 말하는 가정은 의외로 간단하다.
$$\epsilon_{i} \sim iid Normal(0, \sigma^{2})$$
저 조건을 따르면 회귀분석의 가정은 일단 만족한다.
- 선형성 :
$$E(Y) = \alpha + \beta X$$
- 오차항의 등분산성
- 오차항의 독립성
- 오차항의 정규성
이상 4가지가 통계학 - 회귀분석 시간에 배웠던 회귀분석이 만족해야 할 가정이다.
계량경제학에서 말하는 회귀분석의 가정은 조금 다른데,
- 선형성
- 오차의 등분산성
- 오차항의 독립성(여기까지는 똑같다.)
- 설명변수는 non-stochastic(설명변수는 랜덤이 아니어야 한다.)
- 다중공선성이 없어야 한다.
이상 5가지가 계량경제학에서 말하는 회귀분석의 가정이다.
공통적인 3가지(선형성, 등분산성, 독립성)의 의미를 연봉을 예측하는 모델을 만든다는 상황에서 살펴보면 다음과 같다.
- 선형성 : 내가 찾은 설명변수가 평균적으로 연봉을 완전히 설명할 수 있다.
즉, 불확실성(오차항)을 제외하면, 모형에 포함한 변수만으로 예측모델을 완전히 설명할 수 있다는 뜻이다. - 오차의 등분산성 : 운에 의해 달라지는 연봉의 변동폭이 모든 직장인에게 똑같아야 한다.
누구는 운에 크게 좌우받고, 누구는 운에 적게 좌우받게 된다면 등분산성 가정에 위배된다.
하지만, 연봉 모델에서는 이분산성을 가정하는 게 합리적일 수 있다.
(예. 연예인의 수익이 운에 의해 왔다갔다 하는 폭이, 일반 직장인의 수익 변동폭보다 큰 건 기정사실이다.) - 오차항의 독립성 : 옆 사람의 연봉 오차(=운)가 내 연봉에 영향을 주지 않는다.
추가로 계량경제학에서 말하는 두 가지 가정도 연봉 예측 모델에서 예를 들어보면,
- 설명변수는 non-stochastic : 연봉 ~ 학력 + 경력 이렇게 모델을 만들어도, 학력이나 경력조차도 개인의 운에 영향을 받을 수 있게 된다면 non-stochastic하다고 본다.
- 다중공선성이 없어야 한다. 내가 고른 독립변수들끼리는 서로 독립이어야 한다.
하지만, 너무 현실성이 없는 가정인 것 같다. 최대한 영향력이 서로 겹치지 않는 변수를 잘 선정하는 게 중요하겠다.
2. 회귀분석의 결정계수(coefficient of determinant)와 회귀계수(correlation of coefficient) 간의 관계
학교 다니면서 배운 게 있지만, 늘 와닿지 않았던 개념이 있다면..
1개의 독립변수만 넣었다는 가정 하에
$$R^{2} = \frac{SSE}{SSTO} = r^{2}=\frac{Cov(X, Y)^2}{Var(X)Var(Y)}$$
라는 수식을 당연하게 쓴다는 것이다.
수식으로 하나 하나 식을 넣어서 풀면 이해 못할 건 아니었는데, 직관적으로는 이해가 되지 않았다.
그러던 중, "상관관계는 벡터의 내적이다"라는 진작 이해했어야 하지만, 이해하지 못했던 개념을 쉽게 설명해놓은 블로그를 발견해냈다.
[참고링크] :
https://angeloyeo.github.io/2019/08/20/correlation_and_inner_product.html
상관관계와 벡터의 내적에 대해 해당 포스팅에 자세히 설명되어 있어, 그 부분은 따로 정리하지는 않는다.
하지만, 이 개념을 알고 나니 비로소 상관계수와 결정계수의 관계가 이해가 되어 이 부분은 정리해두려고 한다.
손으로 그린거라, 알아보기 어렵지만..
$$Y_{i} = a + bX_{i}$$ 에서 일반적인 LSE(least square estimate)를 한다는 건, Span{1, X}의 평면에 Y라는 벡터를 projection하는 것과 같다.
이 때, Y벡터와 projection한 Y벡터의 차이가 SSE(Sum of Squared errors)가 되는 것이다.(이 때의 SSE는 Full모델에서의 SSE이다.)
만일 X벡터 없이 1로만 구성된 벡터에 Y라는 벡터를 projection하겠다고 하면, Reduced Model에서의 SSE를 구할 수 있다.
이 때 SSE(F) (Full모델에서의 SSE)와 SSE(R) (Reduced Model에서의 SSE)끼리도 서로 orthogonal하게 되는데,
그렇게 되면 SSE(F), SSE(R), SSE(R) - SSE(F)의 변으로 구성된 직각삼각형을 따로 떼어낼 수 있다.
$$cos\theta$$를 구하는 식으로 각 변을 대입하면 원래 알던 R squares의 식이 나오게 된다!!
이후에는
- One way Anova 와 회귀분석에서 사용하는 Anova(일변량 변수 가정) 의 관계성
- Influential Case를 확인하는 이유와 그 방법
- PCA와 Ridge Regression을 추가로 더 정리하려고 한다.
'Statistics' 카테고리의 다른 글
수리통계학 - MLE와 MVUE에 대하여 (2) | 2021.08.28 |
---|---|
수리통계학 - 추정량을 선택하는 기준에 대하여 (0) | 2021.08.10 |
시계열 분석 - ARIMA 모형 정리 (0) | 2021.04.17 |
헷갈리는 회귀분석의 기록(2) - 회귀분석 모형 진단 (0) | 2021.02.07 |
k means clustering에 대한 고찰 (0) | 2021.01.09 |