배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다. 매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
성향점수매칭
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..