Statistics

· Statistics
뜬금없이 TMI부터 털어놓으면.. 이전 시리즈의 넘버링을 잘못 붙였더랬다... 그래서 민망하긴 하지만 다시 5번(사실은 6번째) 글을 써본다. 오늘은 2SLS와 LATE에 대해 글을 쓰려고 하는데, 사실은 직전에 썼던 도구변수의 일종이다. 도구변수를 조금 더 세분화한 개념이라고 보면 좋을 것 같다! 도구변수에 대한 기본개념을 직전 글에 썼는데, 참고해서 보면 조금 도움이 될 지도??? https://blessedby-clt.tistory.com/52 인과추론 학습기 - 04. 도구변수의 기본 개념 오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. ..
· Statistics
오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. 그렇지만 적절한 변수를 잘 찾는다면 인과추론의 내생성 문제를 해결하는데 도움이 되는 방법이라 간략히 정리해보려고 한다. 대리변수(Proxy Variable)과 어떻게 다른지 도구변수의 기본 개념이 무엇인지 사용 시 주의점이 무엇인지 의 단계로 글을 작성할 것이다. 1. 대리변수는 무엇인가? (사실 나만의 문제일 수 있지만...)도구변수가 주는 어감 때문에 대리변수와 헷갈릴 때가 있다. 마치 도구변수가 도라에몽의 도구같이 언제든 척척 꺼내쓰는 것처럼 느껴져서, 정량화하기 어려운 문제를 도구변수로 해결..
· Statistics
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..
· Statistics
살면서 우리는 일상에서 '매칭'이라는 단어를 많이 사용합니다. 결혼정보회사에서도 등급이 비슷한 남녀를 매칭하여 소개해주고 있고, 게임에서도 비슷한 등급/점수를 가진 사람들끼리 매칭시켜서 플레이를 할 수 있게 해줍니다. 이렇게 우리는 '매칭'이라는 개념에 익숙한데, 인과추론에서 말하는 '매칭' 역시 일상적으로 사용하는 매칭과 크게 다를 것이 없습니다. 1. 매칭이란 무엇인가? 인과추론의 데이터 과학(Youtube)에서 설명을 잘 해주신 걸 가져오기는 가져오기는 했는데, 요는 성질이 비슷하지만, 처치(예. 병원 입원이 건강에 미치는 영향을 본다고 할 때, 입원 여부)에만 차이가 있는 사람들끼리 각각 '매칭'시켜 이 사람들을 비교해서 평균적으로 처치 여부에 따라 종속 변수(관심 변수)에 차이가 있는지 확인하는..
· Statistics
오늘은 인과추론의 핵심요소인 선택편의(Selection bias)와 교락(Confounding)에 대해 써보려고 합니다. 거창하게 두 가지를 쓰기는 했지만, 결론부터 말하면 사실 두 가지는 용어는 달라도 비슷한 내용이라고 말할 수 있습니다. 인과추론의 두 거장, 조슈아 앵그리스트(Joshua Angrist, 2021년 노벨 경제학상 수상)와 주데아 펄(Judea Pearl, 2011년 튜링상 수상)의 표현을 각각 가져온 셈이라, 두 거장(?)의 관점에서 인과추론을 어떻게 바라보는지 위주로 정리해 볼 예정입니다. 인과추론이 어려운 이유 앵그리스트의 표현을 빌리면 '사과 vs 오렌지'를 비교하는 상황에서는 인과성을 추정할 수 없기 때문에 인과추론은 어렵습니다. 이게 무슨 소리인고 하면, "고학력자의 소득이 ..
· Statistics
요즘 관심을 가장 관심을 갖고 공부하는 분야가 있다면 인과추론(Causal Inference)입니다. '인과 추론'이 어떤 개념인지는 정확히 몰라도, '인과성'에 대해서는 많이 들어보았을 것이라고 생각합니다. 통계학을 공부하다 보면 '상관관계'라는 개념이 나오고, 그 개념에는 마치 보험 특약처럼 이런 문구가 따라 붙습니다. 상관관계는 인과관계가 아닙니다. 상관관계가 높다고 해서 반드시 인과관계로 설명할 수는 없습니다. 네. 그렇습니다. 대학교에서 과제를 할 때마다 상관분석을 해놓고, 면피성으로 신나게 저 문구를 쓰던 저는 어느덧 사회인이 되고, 데이터 분석가가 되면서 다음과 같은 질문에 맞닥뜨리게 됩니다. 그래서 이렇게 했더니 효과가 있나요? 네. 하지만 이 질문에 대해서는 쉽게 답하기 어려웠습니다. 특..
· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
· Statistics
시계열 분석을 오랜만에 공부하면서, '단위근 검정', '자기상관 검정' 등 시계열 분석에 필요한 검정 방법에 대해서도 다시 공부하게 되었습니다. 이전에 개념을 제대로 못 잡은 탓인지 몰라도 몇 가지 의문이 들었었는데 단위근 검정 = 정상성을 확인하기 위한 검정이고, 정상성은 약정상성 기준으로 평균, 분산이 일정하고 자기상관이 시차에만 의존하는 경우 자기상관 검정 = 잔차의 자기상관이 있는지 확인하기 위한 검정 단위근 검정에서 말하는 자기상관과 자기상관검정에서 말하는 자기상관이 뭐가 다르지? 비슷한건가? 비슷한 거면 자기상관 검정 왜 함? 의 흐름으로 궁금증이 들었습니다. 기존에 알고 있다고 생각한 개념이 제대로 잡히지 않은 것 같아, 이번 기회에 정상성과 단위근검정, 자기상관검정 개념을 정리해보려고 합니..
· Statistics
이번에는 여러 종류의 확률분포에 대한 글을 작성해보려고 합니다. (ex. 이항분포, 정규분포..) 어떤 거창한 의미가 있는 것은 아니고, '개인적으로 공부한 것을 정리해보자!' 하는 취지의 글이기는 해요. 그렇지만 저와 비슷한 상황에 놓인 어떤 누군가에게도 도움이 되길 바라봅니다. 참고로 연속확률분포 / 이산확률분포를 따로 구분하여 작성하지는 않았습니다! 베르누이 분포, 이항분포 통계학에서 가장 기초가 되는 분포라고 할 수 있겠습니다. 옛날에 어떤 자격증 시험(정확히 기억 안남) 보기에 '이항분포', '베르누이 분포'가 동시에 보기로 나와서 갑론을박이 벌어졌던 것 같은 기억이 있는데요.(사실 이것도 정확히 기억 안 남.) 아무튼 요는 같은 뿌리에서 나온 분포이기 때문에 대충 개념만 알면 어떻게든 된다는 ..
· Statistics
회귀분석을 공부하다보면 주성분분석(Principal Component Analysis, PCA)에 대한 이야기는 꼭 한 번씩 나오게 됩니다. 막연히 '주성분분석은 차원축소에 사용함', '주성분분석으로 기존 정보를 최대한 확보하는 새로운 변수를 생성함' 등의 내용을 공부하면서 보게 되는데, 오늘은 이 막연한 개념을 정리하는 시간을 가져보려고 합니다. 1. PCA 사용 목적 위에서 간략하게 썼던 것처럼 주성분분석(PCA)은 고차원의 데이터를 저차원의 데이터로 만드는데 사용합니다. 그리고 회귀분석 관점에서는 '다중공선성 문제를 완화'하는데 사용한다고 말합니다. 다중공선성은 설명변수들끼리 서로 상관성이 높을 때, 모형의 회귀계수의 표준오차를 크게 만들어서 모형에 유의한 변수를 찾기 어렵게 만드는 문제를 의미합니..
오리duck
'Statistics' 카테고리의 글 목록 (2 Page)