누군가 통계학이란 어떤 학문이냐고 묻는다면, 나는 "미지의 모수를 추정하는 학문"이라고 답할 것이다. '추정'이라는 것은 정확하지는 않지만 어슴프레하게나마 어떤 값을 맞춰보겠다는 것이고, 그것은 필연적으로 오차를 수반하게 된다. 결국 정확한 값을 맞힐 수 없음에도 불구하고 통계학을 사용하는 건, 대충 어느 정도까지 틀릴 수 있을 것인지에 대한 각을 봐서 "그나마" 좋은 추정치를 찾아가려고 하는 노력 때문이지 않을까 싶다.
수리통계학에서 다루는 것도
- 우리는 어떤 값을 이용해서 미지의 모수를 찾아나설 것인지, 이 중 어떤 추정량이 좋은 추정량(better estimator)인지? (추정)
- 미지의 모수를 추정한 값이 맞다, 그르다를 판단하고 싶을 때 우리는 어떤 기준을 세울 것인지(검정)
에 대한 부분이다.
수리통계학을 공부한 내용 중 "추정"에 대한 내용을 기록하려고 한다.
추정량(estimator)이란?
앞서 추정량이니, 추정치니 이런 저런 이야기를 썼는데 간략하게 용어정리를 하고 넘어가려고 한다.
해당 용어는 "Hogg, Introduction to Mathematical Statistics"와 학부시절 가르침을 사사받았던 강의 교안을 참고했다.
- Random sample : 임의로 추출한 변수이 서로 독립적이고, 모두 동일한 분포를 가질 때 X1, ..., Xn을 Random sample이라고 한다.
- 통계량(Statistic) : Random Sample들의 함수
- 추정량(Estimator) : Random Sample들의 함수인 통계량이 모수에 대한 정보를 담고 있으면 이 때부터 추정량이라고 부른다.
- 추정치(Estimate) : 추정량을 이용해서 구한 특정 값
모수를 추정하기 위해서는 추정량을 정해야 하고, 이론 상으로는 어떤 통계량이든 추정량이 될 수 있다.
가령, 1반 남학생의 평균 키(모수)를 추정하려고 할 때 우리는 다음의 정보를 모두 이용할 수 있다는 뜻이 된다.
- 다 필요없고 다짜고짜 1반 남학생의 평균키는 175cm라고 우겨본 값
- 10명을 골라서 평균낸 값
- 가장 작은 학생의 키
- 가장 큰 학생의 키
- 반에서 중간 정도 되는 학생의 키
일단 통계를 잘 모르더라도, 1번이 답이 아니라는 건, 본능적으로 알 거고..
아마도 2번이나 5번을 쓰면 좋지 않을까? 라는 것 역시도 본능적으로 알 수 있다.
그렇다면 이 본능을, 본능으로만 놔두지 않고 약간의 설명을 덧붙여본다.
좋은 추정량의 조건
(1) 불편성(Unbiasedness)
모수의 추정량을 평균낸 값은 모수와 일치한다는 것이 불편성이다.
즉, 당장 내가 만든 추정량이 모수와 일치한다는 보장은 없지만, 그러한 추정량을 반복해서 사용할 경우 평균적으로는 모수와 일치하게 된다는 것이다.
$$ E(\widehat{\Theta}) = \Theta $$
(2) 일치성(Consistency)
convergence in probability라고도 불리우는데, 이것은 추정량이 모수에 확률적으로 수렴한다고 보면 된다.
수식으로 표현하면 다음과 같다.
$$ limP(|\bar{X}-\mu |>\epsilon )= 0 $$
더 나아가서는 분포수렴(convergence in distribution)이라는 개념도 있는데, 이는 추정량의 분포(cdf)가 확률적으로 모수의 분포(cdf)에 수렴한다는 개념으로, 후술할 CLT 등을 위해 함께 언급한다.
$$ lim F_{X_{n}}(x) = F_{X}(x) $$
(3) 효율성(efficiency)
불편추정량(unbiased estimator)가 여러 개 있다면 이 중 분산이 작은 추정량이 더 좋다는 의미이다. 추정량의 평균은 모수를 따르더라도, 분산이 크다면 모수를 비슷하게 추정할 가능성도 복불복이 될 확률이 크기 때문에 기왕지사 분산이 작은 추정량을 선택하는 것이 더 좋다.
그래서 표본평균이 왜 좋다고?
효율성은 논외로 하더라도, 표본평균은 불편성과 일치성을 모두 만족한다.
이를 증명한 링크를 첨부한다.
그리고 표본평균과 관련된 아주 중요한 정리가 있다.
바로 내 블로그id와도 관련이 있는, 중심극한 정리에 대한 내용이다.
(1) 표본이 iid(identically independent distributed)를 따르고, 즉 랜덤하게 독립적으로 추출되고
(2) 분산이 유한하고,
(3) 표본 크기가 충분히 클 경우에는
표본평균의 분포는 평균이 mu, 분산이 sigma^2/n를 따르는 정규분포에 근사적으로 수렴한다는 내용이다.
이는 원래의 분포를 모르더라도, 표본평균의 분포가 정규분포를 따른다는 것에 기반하여, 모평균을 검정할 수 있게 된다는 것이고, 즉 모평균을 추정함에 있어 우리는 대략 어느 정도의 오차를 발생시킬 수 있는지에 대해 알게 된다는 것이다.
물론 이 상태에서는 모분산을 모르기 때문에 신뢰구간을 확정지을 수 없지만,
- Slutsky's Theorem
- Week Law of Large Number
등의 정리를 활용하여 표본분산을 모분산으로 확률적으로 근사시키고, 이를 이용해 모평균에 대한 근사신뢰구간을 구할 수 있다.
MLE도 좋은 추정량이다.
수리통계학에서는 MLE(maximum likelihood estimation)에 대한 추정량도 좋은 추정량으로 소개한다.
잠시 likelihood에 대해서 설명하자면,
- 여태 probability에 대해서 이야기했는데, 이는 모수가 정해진 상태에서 X1, ..., Xn이 추출될 확률(probability)에 대한 내용이라면,
- likelihood는 X1, ..., Xn이 발생했고, 발생한 사실로 비추어볼때 어떤 모수가 도출될 가능성(likelihood)에 대한 것이다.
일종의 베이즈 추정으로, 머신러닝에서 이야기하는 EM알고리즘 등과 궤를 같이 하는 것으로 알고는 있는데, 아직 정리가 안 된 고로 이 또한 자세한 설명을 생략한다.
아무튼 maximum likelihood를 간략히 설명하면, 내가 여태까지 경험한 사실을 기반으로 발생할 확률(likelihood)이 큰 값(maximum)을 일단 모수로 추정하겠다는 것으로 증명을 다 떼고 그냥 상식 선에서 놓고 봤을 때 타당하다.
오늘 아침 밖을 나왔는데, 날씨가 매우 습하고, 구름이 회색이고, 하늘에서 왠지 모르게 쿠릉쿠릉 소리가 나니까 비가 올 것이라고 예측하고 우산을 들고 가는 것과 비슷한 느낌이라고 생각하면 되겠다.
MLE는 표본평균과는 다르게 무조건 불편성을 보장하지는 못한다.
다만, 특정 조건을 만족할 때
- 일치성(consistency)을 만족하고,
- 위에서 언급한 CLT와 유사하게 근사적으로 Normal distribution으로 수렴하는 특징이 있어서 좋은 추정량으로 볼 수 있다.
사실 MLE에 대해서는 더 기록할 이야기거리가 많은데,
아직 공부가 짧아서 오늘 포스팅은 이 쯤에서 마무리한다.
다음 포스팅은 과연 언제쯤 쓸 수 있을 것인가..
커밍쑨..
참고링크
https://medium.com/wicds/statistic-vs-estimator-5c59e0003da8
https://m.blog.naver.com/exactmehta/80143457287
'Statistics' 카테고리의 다른 글
수리통계학 - EM 알고리즘 (0) | 2021.09.17 |
---|---|
수리통계학 - MLE와 MVUE에 대하여 (2) | 2021.08.28 |
시계열 분석 - ARIMA 모형 정리 (0) | 2021.04.17 |
헷갈리는 회귀분석의 기록(2) - 회귀분석 모형 진단 (0) | 2021.02.07 |
k means clustering에 대한 고찰 (0) | 2021.01.09 |