데이터 탐험노트

· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
· Statistics
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다.     매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
· Statistics
오늘은 MLE와 관련하여 작성하는 마지막 포스팅으로, EM 알고리즘에 대해 글을 써보려고 한다. EM 알고리즘을 풀어쓰면 'expectation-maximization algorithm'으로, "기대값을 최대화하는 알고리즘"으로 직역할 수 있다. 그러면 EM 알고리즘은 "어떤 기대값"을 구하고자 하는 걸까, "무엇을 최대화"하려고 하는 걸까? EM 알고리즘이란? 이에 대한 해답을 얻기 위해 EM 알고리즘을 언제 사용하는지, 잠시 짚고 넘어갈 필요가 있다. EM 알고리즘은 일부 데이터의 정보가 없는 상황에서 MLE를 얻어야 할 때 자주 사용된다. 모수에 대한 추정치를 구해야 하는 상황에서 MLE를 구하기 위한 완전한 정보가 없다. 이 때, 모수를 초기값으로 세팅해놓고 불완전한 정보까지 포함한 likelih..
조금은 솔직하게 부끄러운 고백을 하자면, 나는 아이돌 노래에 진심이다. TMI지만 2010년도에 샤이니, 에프엑스를 시작으로 아이돌 노래에 입문하게 되었고, 요즘은 JYP 소속사의 스트레이키즈와 엔믹스에 조금 진심이다. 엔믹스(Nmixx)가 누구야? 엔믹스라는 그룹은 생소하더라도, 뉴진스라든가, 아이브라는 그룹은 익숙한 사람들이 많을 것 같기는 하다. 엔믹스는 뉴진스, 아이브, 르세라핌과 같은 아이돌 그룹과 데뷔 시기가 비슷해 4세대 여자 아이돌로 분류되고는 있지만, 국내에서의 대중성은 조금 낮은 편이다. 구글 검색어 트렌드로 4세대 걸그룹의 검색량을 비교해보면, 대중성의 차이를 조금 가늠할 수 있다. 보라색으로 표시되는 아이브가 검색량으로는 가히 압도적인데, 특히 4월 부근에 정규앨범 I've 을 내면..
· Statistics
회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다. 만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다. 그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요..
오리duck
데이터 탐험 노트