오늘은 MLE와 관련하여 작성하는 마지막 포스팅으로, EM 알고리즘에 대해 글을 써보려고 한다. EM 알고리즘을 풀어쓰면 'expectation-maximization algorithm'으로, "기대값을 최대화하는 알고리즘"으로 직역할 수 있다. 그러면 EM 알고리즘은 "어떤 기대값"을 구하고자 하는 걸까, "무엇을 최대화"하려고 하는 걸까? EM 알고리즘이란? 이에 대한 해답을 얻기 위해 EM 알고리즘을 언제 사용하는지, 잠시 짚고 넘어갈 필요가 있다. EM 알고리즘은 일부 데이터의 정보가 없는 상황에서 MLE를 얻어야 할 때 자주 사용된다. 모수에 대한 추정치를 구해야 하는 상황에서 MLE를 구하기 위한 완전한 정보가 없다. 이 때, 모수를 초기값으로 세팅해놓고 불완전한 정보까지 포함한 likelih..
Statistics
지난번 작성했던 글에 이어 오늘도 수리통계학, 그 중에서도 MLE(maximum likelihood estimation)에 대해 작성해보려고 한다. https://blessedby-clt.tistory.com/23 수리통계학 - 추정량을 선택하는 기준에 대하여 누군가 통계학이란 어떤 학문이냐고 묻는다면, 나는 "미지의 모수를 추정하는 학문"이라고 답할 것이다. '추정'이라는 것은 정확하지는 않지만 어슴프레하게나마 어떤 값을 맞춰보겠다는 것이 blessedby-clt.tistory.com MLE란 무엇인가 지난번 작성했던 글에서, likelihood는 X1, ..., Xn이 발생했고, 발생한 사실로 비추어볼때 어떤 모수가 도출될 가능성(likelihood)에 대한 것이다. 라고 간략하게 언급했는데, 조금은..
누군가 통계학이란 어떤 학문이냐고 묻는다면, 나는 "미지의 모수를 추정하는 학문"이라고 답할 것이다. '추정'이라는 것은 정확하지는 않지만 어슴프레하게나마 어떤 값을 맞춰보겠다는 것이고, 그것은 필연적으로 오차를 수반하게 된다. 결국 정확한 값을 맞힐 수 없음에도 불구하고 통계학을 사용하는 건, 대충 어느 정도까지 틀릴 수 있을 것인지에 대한 각을 봐서 "그나마" 좋은 추정치를 찾아가려고 하는 노력 때문이지 않을까 싶다. 수리통계학에서 다루는 것도 우리는 어떤 값을 이용해서 미지의 모수를 찾아나설 것인지, 이 중 어떤 추정량이 좋은 추정량(better estimator)인지? (추정) 미지의 모수를 추정한 값이 맞다, 그르다를 판단하고 싶을 때 우리는 어떤 기준을 세울 것인지(검정) 에 대한 부분이다. ..
시계열의 정상성 일반적으로 시계열에서 '정상성(Stationary)'은 굉장히 중요한 의미를 갖는다. 사실 시계열을 급하게 공부해서, 정확하고 또 적확하게 개념을 이해하고 사용한 것은 아니지만, 기계적으로 시계열 데이터를 다뤘던 대부분의 경우, 시계열 데이터가 정상성을 따르는지 확인하고, 정상성을 따르지 않는다면 차분 or 변환을 통해 정상성을 만족하는 형태로 바꾸어가며, ARIMA 모델을 만들어 나갔다. 정상성(Stationary)에 대해 간략하게 정리하면, 데이터 간의 자기 상관이 없는 경우를 의미한다. 즉, 특정 시점과 h 시점 이후의 시점의 데이터는 시차(lag)에만 영향을 받고, t 와 t+h 라는 시점 자체에는 영향을 받지 않는 것을 의미한다. 이러한 정상성을 띄는 대표적인 경우가 '백색잡음(..
통계학도로서, 회귀분석은 오아시스 같은 존재이다. 분명 많이 공부해서 닿을 듯 하면서도, 모형 진단 이후로 넘어가면 '뭘 어쩌랬더라?' 싶어서 순식간에 거리가 멀어져 버린다. 마치 '집합' 부분만 너덜거리는 수학의 정석처럼, (7차 교육과정 세대 소리질러!) 매번 처음으로 회귀하는 회귀분석을 더 이상 좌시할 수 없기에.. 자세하게 정리는 못 하더라도, 이번 기회에 간략한 키워드라고 정리해두려고 한다. 사실 지난 번에 회귀분석을 일부 정리해두었는데, 다시 소름돋게 처음으로 회귀해버린 탓도 있다. 2020/11/09 - [Statistics] - 헷갈리는 회귀분석의 기록(1) - 회귀분석의 가정 및 결정계수의 의미 회귀분석의 가정은 써 있는 책마다 조금씩 다르긴 하지만, 적어도 학부 시절에 배웠던 가정은 크..
1. 사건의 전말 통계학과를 졸업하기는 했지만, 관련 전공 지식을 별로 사용할 일은 없었다. 하여 k means clustering도 이론으로만 어렴풋이 알고 있을 뿐, 관련해서 깊게 생각해본 적도 없었다. 알음알음 전공 수업을 듣거나, ADsP나 ADP 필기 공부하면서 알고 있는 내용이라고는 - 비지도 학습의 일종이다. - 임의로 할당한 초깃값을 갖고 알고리즘을 시작, 각 레코드를 초깃값에 가장 가까운 평균을 갖는 클러스터에 레코드를 할당하는 방식으로 분류 - 이상치에 영향을 많이 받으며, 최적 군집 수를 직접 찾아줘야 한다. 이 정도였다. 그러던 중, 최근 R&D 성격의 업무를 하면서, '데이터를 군집분석을 통해 좀 세분화해서 보면 좋지 않을까?'라는 생각에 kmeans clustering을 시도했었..
원래는 시계열을 공부해서 정리하려고 했는데, 회귀분석이 기억이 안 나서 회귀해버리고 말았다. 분명 회귀분석의 Regression이 그 회귀가 아닐텐데, 어쩐지 통계 공부를 하려고 마음을 먹으면 회귀분석으로 돌아가게 된다. 회귀분석은 공부할 때마다 늘 새로운데.. 매번 같은 내용을 공부하면서도, 다시 몰랐던 걸 알게 되면 거기서 오는 전율이 있다. 전율도 좋기는 하지만, 이번에는 정말로 헷갈리는 부분을 정리해서, 기억의 휘발을 줄여보려고 한다. 이해가 안 가는 걸 억지로 이해력을 주입시켜서 기록하는 거라, 틀린 부분이 있을 수도 있는데 혹시 틀린 부분이 있다면 알려주시면 감사하겠습니다. 😘 1. 회귀분석의 가정 통계학 전공인 '회귀분석'과목에서 배웠던 가정과, 경제학 전공인 '계량경제학'과목에서 배웠던 가..