원래는 시계열을 공부해서 정리하려고 했는데, 회귀분석이 기억이 안 나서 회귀해버리고 말았다. 분명 회귀분석의 Regression이 그 회귀가 아닐텐데, 어쩐지 통계 공부를 하려고 마음을 먹으면 회귀분석으로 돌아가게 된다.

회귀분석은 공부할 때마다 늘 새로운데..

매번 같은 내용을 공부하면서도, 다시 몰랐던 걸 알게 되면 거기서 오는 전율이 있다.

 

전율도 좋기는 하지만, 이번에는 정말로 헷갈리는 부분을 정리해서, 기억의 휘발을 줄여보려고 한다.

이해가 안 가는 걸 억지로 이해력을 주입시켜서 기록하는 거라, 틀린 부분이 있을 수도 있는데

혹시 틀린 부분이 있다면 알려주시면 감사하겠습니다. 😘

 

 

1. 회귀분석의 가정

통계학 전공인 '회귀분석'과목에서 배웠던 가정과, 경제학 전공인 '계량경제학'과목에서 배웠던 가정이 조금 미묘하게 달라서 매번 헷갈린다. 수식 없이 직관적으로 이해하기에는 '계량경제학'에서 배웠던 부분이 더 좋았던 것 같아서 같이 정리해둔다.

 

통계학 전공에서 말하는 가정은 의외로 간단하다.

 

$$\epsilon_{i} \sim iid Normal(0, \sigma^{2})$$

 

저 조건을 따르면 회귀분석의 가정은 일단 만족한다.

 

 

  • 선형성 : 

$$E(Y) = \alpha + \beta X$$

 

  • 오차항의 등분산성
  • 오차항의 독립성
  • 오차항의 정규성

 

이상 4가지가 통계학 - 회귀분석 시간에 배웠던 회귀분석이 만족해야 할 가정이다.

 

 

계량경제학에서 말하는 회귀분석의 가정은 조금 다른데, 

  • 선형성
  • 오차의 등분산성
  • 오차항의 독립성(여기까지는 똑같다.)
  • 설명변수는 non-stochastic(설명변수는 랜덤이 아니어야 한다.)
  • 다중공선성이 없어야 한다.

이상 5가지가 계량경제학에서 말하는 회귀분석의 가정이다.

 

공통적인 3가지(선형성, 등분산성, 독립성)의 의미를 연봉을 예측하는 모델을 만든다는 상황에서 살펴보면 다음과 같다.

  • 선형성 : 내가 찾은 설명변수가 평균적으로 연봉을 완전히 설명할 수 있다.
    즉, 불확실성(오차항)을 제외하면, 모형에 포함한 변수만으로 예측모델을 완전히 설명할 수 있다는 뜻이다.
  • 오차의 등분산성 : 운에 의해 달라지는 연봉의 변동폭이 모든 직장인에게 똑같아야 한다.
    누구는 운에 크게 좌우받고, 누구는 운에 적게 좌우받게 된다면 등분산성 가정에 위배된다.
    하지만, 연봉 모델에서는 이분산성을 가정하는 게 합리적일 수 있다.
    (예. 연예인의 수익이 운에 의해 왔다갔다 하는 폭이, 일반 직장인의 수익 변동폭보다 큰 건 기정사실이다.)
  • 오차항의 독립성 : 옆 사람의 연봉 오차(=운)가 내 연봉에 영향을 주지 않는다. 

추가로 계량경제학에서 말하는 두 가지 가정도 연봉 예측 모델에서 예를 들어보면,

  • 설명변수는 non-stochastic : 연봉 ~ 학력 + 경력 이렇게 모델을 만들어도, 학력이나 경력조차도 개인의 운에 영향을 받을 수 있게 된다면 non-stochastic하다고 본다.
  • 다중공선성이 없어야 한다. 내가 고른 독립변수들끼리는 서로 독립이어야 한다.
    하지만, 너무 현실성이 없는 가정인 것 같다. 최대한 영향력이 서로 겹치지 않는 변수를 잘 선정하는 게 중요하겠다.

 

2. 회귀분석의 결정계수(coefficient of determinant)와 회귀계수(correlation of coefficient) 간의 관계

 

학교 다니면서 배운 게 있지만, 늘 와닿지 않았던 개념이 있다면..

1개의 독립변수만 넣었다는 가정 하에

 

$$R^{2} = \frac{SSE}{SSTO} = r^{2}=\frac{Cov(X, Y)^2}{Var(X)Var(Y)}$$

 

라는 수식을 당연하게 쓴다는 것이다.

 

수식으로 하나 하나 식을 넣어서 풀면 이해 못할 건 아니었는데, 직관적으로는 이해가 되지 않았다.

 

그러던 중, "상관관계는 벡터의 내적이다"라는 진작 이해했어야 하지만, 이해하지 못했던 개념을 쉽게 설명해놓은 블로그를 발견해냈다.

 

[참고링크]  : 

https://angeloyeo.github.io/2019/08/20/correlation_and_inner_product.html

 

상관계수는 벡터의 내적이다. - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

상관관계와 벡터의 내적에 대해 해당 포스팅에 자세히 설명되어 있어, 그 부분은 따로 정리하지는 않는다.

 

하지만, 이 개념을 알고 나니 비로소 상관계수와 결정계수의 관계가 이해가 되어 이 부분은 정리해두려고 한다.

 

 

 

손으로 그린거라, 알아보기 어렵지만..

 

$$Y_{i} = a  + bX_{i}$$ 에서 일반적인 LSE(least square estimate)를 한다는 건, Span{1, X}의 평면에 Y라는 벡터를 projection하는 것과 같다.

 

이 때, Y벡터와 projection한 Y벡터의 차이가 SSE(Sum of Squared errors)가 되는 것이다.(이 때의 SSE는 Full모델에서의 SSE이다.)

 

만일 X벡터 없이 1로만 구성된 벡터에 Y라는 벡터를 projection하겠다고 하면, Reduced Model에서의 SSE를 구할 수 있다.

 

이 때 SSE(F) (Full모델에서의 SSE)와 SSE(R) (Reduced Model에서의 SSE)끼리도 서로 orthogonal하게 되는데,

그렇게 되면 SSE(F), SSE(R), SSE(R) - SSE(F)의 변으로 구성된 직각삼각형을 따로 떼어낼 수 있다.

 

$$cos\theta$$를 구하는 식으로 각 변을 대입하면 원래 알던 R squares의 식이 나오게 된다!!

 

 

 

이후에는

- One way Anova 와 회귀분석에서 사용하는 Anova(일변량 변수 가정) 의 관계성

- Influential Case를 확인하는 이유와 그 방법

- PCA와 Ridge Regression을 추가로 더 정리하려고 한다.