Statistics

· Statistics
회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다. 만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다. 그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요..
· Statistics
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다.     매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
· Statistics
들어가며 요즘은 시계열 공부 위주로 진행하고 있다. 당장 "어디다 써먹을거야"라는 목표는 없지만, 시계열 개념을 알아야만 이해할 수 있는 영역들이 있어서 최근에는 시계열 개념을 다시 복습하고 있는 중이다. 일단 전통적인 통계 기반의 시계열(이라고 쓰고 ARIMA라고 읽는다.) 개념 공부를 마무리하는 차원에서 기록을 남긴다. Stationary(정상성), AR, MA, ACF, PACF, Unit Root Test, VAR, Cointegration의 개념 순서대로 정리했다. 개념을 직관적으로 풀어쓰려고 나름대로 노력했지만, 일단은 시계열에 대한 개념이 어느 정도 있는 사람이 한 번 가볍게 개념을 정리하면 좋을 것 같다는 의도로 글을 썼다. 만약 시계열 개념이 없더라도, 이런 개념들이 시계열 공부를 할 때..
· Statistics
오늘은 인과추론 분석 도구 중 하나인 RD(Regression Discontinuity ; 회귀 불연속 설계)에 대한 글을 써 보려고 한다. "회귀 불연속"이라는 단어가 다소 어려워 보이지만, 개념 자체는 가장 직관적이다. 아슬아슬하게 막차를 탄 사람과 막차를 타지 못한 사람을 비교한다면, 이 두 집단은 정말 간발의 차이밖에 나지 않을테니 둘을 비교하면 인과효과를 파악할 수 있다는 뜻이다. 조금 더 구체적으로 예시를 들면 수능 등급을 생각해볼 수 있을 것 같다. 분명 국어(라떼는 언어 영역이었지만..), 수학, 영어 모두 점수는 1점 단위이지만 등급은 1점 차이로 짤없이 갈린다. 만약 96점이 1등급 컷이었다고 하면, 95점이랑 96점은 1점이라는 미미한 차이밖에 나지 않지만, 등급 기준으로는 95점은 ..
· Statistics
베이즈 통계를 얼마 전부터 찍먹하기 시작했다. 현재까지 코세라 인강 하나와 기본 책 한 권을 완독하는데 성공했다. 아직 많이 아는 것은 없지만, "베린이"로서 베이즈 통계를 공부하며 배운 것들을 정리하며, 이 글을 읽는 누군가가 베이즈 통계에 약간이라도 호기심을 가질 수 있도록 영업(?)을 해보려 한다. 1. 베이지안(Bayesian)이 빈도주의(Frequentist)와 다른 점 우리가 가장 기본적으로 배우는 것은 빈도주의(Frequentist)의 관점이다. 각 샘플이 독립적으로 추출된다는 가정 하에 샘플의 추정량/추정치(Estimator)를 기반으로(대표적으로는 평균) 우리가 알고자 하는 모수(Parameter)를 추정하고자 하는 게 빈도주의다. 대표적인 사례는 역시나 여론조사인데, 1. 성별, 연령 ..
· Statistics
뜬금없이 TMI부터 털어놓으면.. 이전 시리즈의 넘버링을 잘못 붙였더랬다... 그래서 민망하긴 하지만 다시 5번(사실은 6번째) 글을 써본다. 오늘은 2SLS와 LATE에 대해 글을 쓰려고 하는데, 사실은 직전에 썼던 도구변수의 일종이다. 도구변수를 조금 더 세분화한 개념이라고 보면 좋을 것 같다! 도구변수에 대한 기본개념을 직전 글에 썼는데, 참고해서 보면 조금 도움이 될 지도??? https://blessedby-clt.tistory.com/52 인과추론 학습기 - 04. 도구변수의 기본 개념 오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. ..
· Statistics
오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. 그렇지만 적절한 변수를 잘 찾는다면 인과추론의 내생성 문제를 해결하는데 도움이 되는 방법이라 간략히 정리해보려고 한다. 대리변수(Proxy Variable)과 어떻게 다른지 도구변수의 기본 개념이 무엇인지 사용 시 주의점이 무엇인지 의 단계로 글을 작성할 것이다. 1. 대리변수는 무엇인가? (사실 나만의 문제일 수 있지만...)도구변수가 주는 어감 때문에 대리변수와 헷갈릴 때가 있다. 마치 도구변수가 도라에몽의 도구같이 언제든 척척 꺼내쓰는 것처럼 느껴져서, 정량화하기 어려운 문제를 도구변수로 해결..
· Statistics
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..
· Statistics
살면서 우리는 일상에서 '매칭'이라는 단어를 많이 사용합니다. 결혼정보회사에서도 등급이 비슷한 남녀를 매칭하여 소개해주고 있고, 게임에서도 비슷한 등급/점수를 가진 사람들끼리 매칭시켜서 플레이를 할 수 있게 해줍니다. 이렇게 우리는 '매칭'이라는 개념에 익숙한데, 인과추론에서 말하는 '매칭' 역시 일상적으로 사용하는 매칭과 크게 다를 것이 없습니다. 1. 매칭이란 무엇인가? 인과추론의 데이터 과학(Youtube)에서 설명을 잘 해주신 걸 가져오기는 가져오기는 했는데, 요는 성질이 비슷하지만, 처치(예. 병원 입원이 건강에 미치는 영향을 본다고 할 때, 입원 여부)에만 차이가 있는 사람들끼리 각각 '매칭'시켜 이 사람들을 비교해서 평균적으로 처치 여부에 따라 종속 변수(관심 변수)에 차이가 있는지 확인하는..
· Statistics
오늘은 인과추론의 핵심요소인 선택편의(Selection bias)와 교락(Confounding)에 대해 써보려고 합니다. 거창하게 두 가지를 쓰기는 했지만, 결론부터 말하면 사실 두 가지는 용어는 달라도 비슷한 내용이라고 말할 수 있습니다. 인과추론의 두 거장, 조슈아 앵그리스트(Joshua Angrist, 2021년 노벨 경제학상 수상)와 주데아 펄(Judea Pearl, 2011년 튜링상 수상)의 표현을 각각 가져온 셈이라, 두 거장(?)의 관점에서 인과추론을 어떻게 바라보는지 위주로 정리해 볼 예정입니다. 인과추론이 어려운 이유 앵그리스트의 표현을 빌리면 '사과 vs 오렌지'를 비교하는 상황에서는 인과성을 추정할 수 없기 때문에 인과추론은 어렵습니다. 이게 무슨 소리인고 하면, "고학력자의 소득이 ..
오리duck
'Statistics' 카테고리의 글 목록