분류 전체보기

· Statistics
오늘은 인과추론 분석 도구 중 하나인 RD(Regression Discontinuity ; 회귀 불연속 설계)에 대한 글을 써 보려고 한다. "회귀 불연속"이라는 단어가 다소 어려워 보이지만, 개념 자체는 가장 직관적이다. 아슬아슬하게 막차를 탄 사람과 막차를 타지 못한 사람을 비교한다면, 이 두 집단은 정말 간발의 차이밖에 나지 않을테니 둘을 비교하면 인과효과를 파악할 수 있다는 뜻이다. 조금 더 구체적으로 예시를 들면 수능 등급을 생각해볼 수 있을 것 같다. 분명 국어(라떼는 언어 영역이었지만..), 수학, 영어 모두 점수는 1점 단위이지만 등급은 1점 차이로 짤없이 갈린다. 만약 96점이 1등급 컷이었다고 하면, 95점이랑 96점은 1점이라는 미미한 차이밖에 나지 않지만, 등급 기준으로는 95점은 ..
· Statistics
베이즈 통계를 얼마 전부터 찍먹하기 시작했다. 현재까지 코세라 인강 하나와 기본 책 한 권을 완독하는데 성공했다. 아직 많이 아는 것은 없지만, "베린이"로서 베이즈 통계를 공부하며 배운 것들을 정리하며, 이 글을 읽는 누군가가 베이즈 통계에 약간이라도 호기심을 가질 수 있도록 영업(?)을 해보려 한다. 1. 베이지안(Bayesian)이 빈도주의(Frequentist)와 다른 점 우리가 가장 기본적으로 배우는 것은 빈도주의(Frequentist)의 관점이다. 각 샘플이 독립적으로 추출된다는 가정 하에 샘플의 추정량/추정치(Estimator)를 기반으로(대표적으로는 평균) 우리가 알고자 하는 모수(Parameter)를 추정하고자 하는 게 빈도주의다. 대표적인 사례는 역시나 여론조사인데, 1. 성별, 연령 ..
· 일상생각
글 작성에 대한 회고 어느덧 글또 8기 활동의 마지막 제출글을 작성한다. 이번에는 '또봇'이라고 글 제출을 도와주는 친구가 생겨서 따로 글을 몇 개나 썼는지, 무슨 글을 썼는지 내가 번번이 링크를 타고 확인하지 않아도 되어 매우 좋다! (글 제출 내역도 남아서 회고에도 큰 도움이 된다.) 이번에도 2개의 패스를 사용해서 총 10회의 글을 제출했다. 원래 이번 회차의 가장 큰 목표는 "인과추론 학습기"라는 시리즈 글을 완성짓는 것이었는데, 원래 계획은 회귀분석, 매칭, 도구변수, RD, RDD까지 정리하는 것이었다. 그렇지만 패스를 쓰고 난 다음에는 의욕을 충전하는 데 시간이 걸렸던 것 같다. 공교롭게도 계획과 다른 글을 쓴 게 다 패스 다음 시기였다....(빅쿼리와 통계학의 쓸모에 대한 단상에 대한 글이..
· Statistics
뜬금없이 TMI부터 털어놓으면.. 이전 시리즈의 넘버링을 잘못 붙였더랬다... 그래서 민망하긴 하지만 다시 5번(사실은 6번째) 글을 써본다. 오늘은 2SLS와 LATE에 대해 글을 쓰려고 하는데, 사실은 직전에 썼던 도구변수의 일종이다. 도구변수를 조금 더 세분화한 개념이라고 보면 좋을 것 같다! 도구변수에 대한 기본개념을 직전 글에 썼는데, 참고해서 보면 조금 도움이 될 지도??? https://blessedby-clt.tistory.com/52 인과추론 학습기 - 04. 도구변수의 기본 개념 오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. ..
· 일상생각
한 때, 빅데이터의 쌍두마차로 컴퓨터공학과 통계학이 언급되며, 둘 중 무엇을 배우는 것이 좋은지 의견이 분분했드랬다. 지금은 특수대학원 커리큘럼을 보든, 데이터 사이언티스트 국비 지원 교육 커리큘럼을 보든 통계학보다는 CS 위주로 구성되어 있어 어느 정도 정리(?)가 된 느낌이지만, 여전히 작게나마 소동극이 진행되고 있는 느낌이다. 혹자는 통계학을 배울 필요가 없다고 말하기도 하고, 혹자는 통계학이 데이터 사이언스의 기초 체력이라고 말한다. 여기에 통계학을 전공하고, 지금도 계속 공부하고 있는 사람으로서 의견을 정리해서 작성해보려고 한다. 1. 통계학에 대한 단상 결론부터 말하면 통계학은 도구로서의 학문이라고 생각한다. 이건 통계학을 공부하면, 공부할수록 절실히 느끼는 부분이다. 대학교 전공수업을 듣던 ..
· Statistics
오늘은 도구변수(Instrumental Variable, 이하 IV)에 대해 써보려고 한다. 해당 기법은 Tricky해서 잘 쓰면 정말 신박한 결과를 얻을 수 있지만 동시에 사용하기 까다로운 방법이기도 하다. 그렇지만 적절한 변수를 잘 찾는다면 인과추론의 내생성 문제를 해결하는데 도움이 되는 방법이라 간략히 정리해보려고 한다. 대리변수(Proxy Variable)과 어떻게 다른지 도구변수의 기본 개념이 무엇인지 사용 시 주의점이 무엇인지 의 단계로 글을 작성할 것이다. 1. 대리변수는 무엇인가? (사실 나만의 문제일 수 있지만...)도구변수가 주는 어감 때문에 대리변수와 헷갈릴 때가 있다. 마치 도구변수가 도라에몽의 도구같이 언제든 척척 꺼내쓰는 것처럼 느껴져서, 정량화하기 어려운 문제를 도구변수로 해결..
주간 회고를 블로그에 작성해보기로 결심했다. 일상을 그냥 저냥 흘려보내며 일만 벌이지 말고 다시 뭔가 수렴해보자 하는 일환인데, 그냥 일기장 같은 형태가 될 것 같다. 1. 신체적 작년 10월부터 그래도 매주 3~4회 꼬박꼬박 운동을 나가다가 몇 개월 전부터 운동을 제대로 못 나가고 있다. 몇 개월 전에 작은 수술을 받게 되었는데 그래도 나름 수술이어서 수술 부위에 영향이 없도록 4~6주 정도 운동을 쉬게 되었고... 그렇게 루틴이 깨져버리고, 다른 바쁜 일이 생기니까 에이 어쩔 수 없다 하면서 차일피일 조금씩 운동을 미루게 되었기 때문이다. 지금은 수술 영향은 전혀 없는데도 불구하고! 얼굴이 보름달처럼 동그래보인다고 생각해서 체중을 재보니 다시 역대급 갱신을 해버리고 말았다. 이대로는 안 되겠다 싶어 ..
· 일상생각
제목은 거창하게 썼지만, 최근 PM을 위한 데이터 리터러시 인강(최근에는 학습률이 부진하지만... 큭)이나 현업에 계신 데이터 분석가 분들을 봬면서 느낀 점들을 기록하는 글이다. 결론부터 말하면 여전히 좋은 데이터 분석가라는 것을 정의하는 것은 어렵다. 애초에 한 두 가지의 범주로 정의 지을 수 있는 개념인지도 모르겠다. 하지만 결과가 아니라 한 단계 한 단계의 과정에 대해서는 이야기할 수 있을 것 같다. 결국 이 글은 엄밀히는 '점점 좋아지는' 데이터 분석가가 되기 위한 글이라고 볼 수 있겠다. 무작정 일을 벌이지 말고, 정리하는 시간을 반드시 갖자 PM을 위한 데이터 리터러시 인강(이하 PM인강으로 명명)에서 '발산'과 '수렴'이라는 키워드가 왕왕 나온다. 발산 = 아이디어를 자유롭게 풀어놓는 것 수..
· Statistics
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..
· 독후감
3월 목표로 했던 책을 다 읽어서, 나에게 주는 선물로 샀던 '사람을 얻는 지혜'. 잔뜩 기대했지만 생각만큼 좋은 느낌은 아니었다. 처세술에 대한 이야기도 은근히 나오는데, 개인적으로는 자기계발서에 나올법한 이야기를 보는 것이 아니라 인문학적인 내용을 보고 싶었기에 읽는 것이 조금 힘에 부쳤던 것 같다.남이 나를 의존하도록 욕구를 북돋우라. 다른 사람의 결핍을 이용하라. (p.226) 자기 바닥을 드러내지 말라. 늘 최신 기술의 기밀을 유지하라. (p.252) 호의 를 얻으면 일사천리로 일이 진행된다. (p.144) 그럼에도 불구하고 몇몇 새겨들으면 좋을만한 이야기는 있었는데,말하기 전에는 늘 시간이 있지만 말하고 나면 되돌릴 시간이 없다. 말하기 전에는 늘 시간이 있지만, 말하고 나면 되돌릴 시간이 없..
오리duck
'분류 전체보기' 카테고리의 글 목록 (4 Page)