데이터 탐험노트

· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
· Statistics
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..
· Statistics
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다.     매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
· Statistics
시계열 분석을 오랜만에 공부하면서, '단위근 검정', '자기상관 검정' 등 시계열 분석에 필요한 검정 방법에 대해서도 다시 공부하게 되었습니다. 이전에 개념을 제대로 못 잡은 탓인지 몰라도 몇 가지 의문이 들었었는데 단위근 검정 = 정상성을 확인하기 위한 검정이고, 정상성은 약정상성 기준으로 평균, 분산이 일정하고 자기상관이 시차에만 의존하는 경우 자기상관 검정 = 잔차의 자기상관이 있는지 확인하기 위한 검정 단위근 검정에서 말하는 자기상관과 자기상관검정에서 말하는 자기상관이 뭐가 다르지? 비슷한건가? 비슷한 거면 자기상관 검정 왜 함? 의 흐름으로 궁금증이 들었습니다. 기존에 알고 있다고 생각한 개념이 제대로 잡히지 않은 것 같아, 이번 기회에 정상성과 단위근검정, 자기상관검정 개념을 정리해보려고 합니..
· Statistics
회귀분석을 공부하다보면 주성분분석(Principal Component Analysis, PCA)에 대한 이야기는 꼭 한 번씩 나오게 됩니다. 막연히 '주성분분석은 차원축소에 사용함', '주성분분석으로 기존 정보를 최대한 확보하는 새로운 변수를 생성함' 등의 내용을 공부하면서 보게 되는데, 오늘은 이 막연한 개념을 정리하는 시간을 가져보려고 합니다. 1. PCA 사용 목적 위에서 간략하게 썼던 것처럼 주성분분석(PCA)은 고차원의 데이터를 저차원의 데이터로 만드는데 사용합니다. 그리고 회귀분석 관점에서는 '다중공선성 문제를 완화'하는데 사용한다고 말합니다. 다중공선성은 설명변수들끼리 서로 상관성이 높을 때, 모형의 회귀계수의 표준오차를 크게 만들어서 모형에 유의한 변수를 찾기 어렵게 만드는 문제를 의미합니..
오리duck
데이터 탐험 노트