오늘은 개입(intervention)과 뒷문기준(frontdoor criterion)에 대한 글을 써보려고 한다.이를 이해하기 위해서는 인과 그래프에 대한 선행지식이 필요하다. https://blessedby-clt.tistory.com/78 인과추론 학습기 - SCM과 인과 그래프오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서blessedby-clt.tistory.com 관련해서 이미 글을 쓴 것이 있어 참고해서 봐도 좋을 것 같다. 개인적으로 개입이나 뒷문기준을 이용해서 분석을 했던 경험은 없지만, 여러 인과추론의 주요 개념을 이해하기 위해서는 개입과 뒷문기준에 ..
분류 전체보기
오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서는 다루지는 않지만, 베이지안 통계에 대한 이해도가 있으면 아래 설명을 기반으로 심화된 내용을 확장해서 찾아보기 편할 것 같다. 기본 용어SCM (Structural Causal Model) 한글로 그대로 직역하면 구조화된 인과모형이다. 즉, 인과관계를 구조적으로 설명하는 모델로서, 좀 더 자세히 말하면 변수 간의 인과 관계를 명시적으로 수식화하여 표현하는 모델이다. 이러한 모형을 사용하면 인과 관계의 방향성과 크기를 명확히 이해할 수 있다.예를 들어 하루 섭취한 칼로리가 500kcal를 넘어갈 때마다 체중 1kg가 증가..
독서를 한동안 멀리 하다 8월 말쯤부터 다시 책을 열심히 읽기 시작했다. 이동진 평론가처럼 책을 읽고 멋진 생각을 하지는 못하지만 그래도 출근길이나 주말에 몇 시간쯤 시간을 내서 책을 읽는 독서 애호가쯤은 될 것 같다. 프레이밍 효과로 독서량 회복하기 중간에 독서 공백기가 왜 발생하게 되었는가를 곰곰이 생각해 보면, 책을 접하는 시간이나 기회가 줄었기 때문인 것 같다. 이 무슨 동어반복 같은 이야기인가 싶을 수도 있겠다. 이해를 위해 좀 더 자세히 말해보자면 책꽂이에 쌓아두기만 하고 읽지 않은 책이 눈에 밟혔던 시기가 있었다. 좋아보여서 책을 샀다가 관심에서 멀어지면서 자연히 안 읽게 된 책들이었는데 대개 자기 계발서나 실용서의 성격을 띤 책들이 잔여 이슈(?)처럼 남아 있었다. 그런데 그 양이 제법..
해당 게시글은 머신러닝을 활용한 웹 최적화 (한빛미디어, 이쓰카 슈헤이 저자)를 읽고 작성한 글이지만,일부 예시만 인용하고 나머지는 제 생각이나 공부한 내용을 담은 글이라 실제 책의 내용과 다른 구성을 취하고 있습니다. AB 테스트를 하는 상황 "웹"이라 함은 역시 뭐니뭐니해도 AB 테스트가 제일 베이직한듯 하다. 두 가지 다른 버튼 디자인(A안, B안)에 따라 클릭률(CPR)의 지표를 비교하는 상황이다. 앨리스의 보고서A안B안표시 횟수4050클릭 횟수24클릭률5%8%밥의 보고서A안B안표시 횟수12801600클릭 횟수64128클릭률5%8% 앨리스와 밥의 보고서 모두 A안의 클릭률이 5%, B안의 클릭률은 8%이다.이 때 단순히 B안의 CPR이 더 높기 때문에, B안이 정말 더 CPR이 높다고 말해도 되는..
회고는 정말 어려운 일이다. 회고가 좋다는 건 누구나 알지만, 시간을 내서 뭔가를 돌아보는 게 정말로 어렵게 느껴진다.그나마 몇 달 전까지는 시지삶이라는 회고 모임에 참여했기 때문에 잘하든 못하든 꾸준히 회고라는 것에 시간을 투입할 수 있었는데, 최근에 시지삶에 참여하지 못하게 되면서 정말 걷잡을 수 없이 회고와 멀어지게 되어버렸다. 그래도 N개월 이상 회고를 하는 습관이 들어서 괜찮지 않을까 싶었는데, 루틴을 유지해야 하는 목적이 상실되니 마치 모래성같이 회고 습관이 사르르 무너져버리고 말았다. 이에 다시 한 번 회고에 대한 마음을 다 잡기 위해 오랜만에 블로그에 글을 남겨본다. (이 글도 몇 번을 미루다 쓴 건 함정) 회고의 어려움에 대한 회고1. 측정 가능한 목표가 없음. 측정 가능한 목표가 없..
비록 그 기간이 길지는 않으나, 내 경력에는 "소셜 빅데이터 분석가"라는 것이 있다. 소셜 빅데이터 분석가라는 직무명을 말했을 때, 사람들은 데이터 분석가라는 직무명은 익숙해 하지만, 또 소셜 빅데이터라는 용어가 그다지 익숙하지 않아 하는 것 같다. 당장 구글링을 해봐도, "데이터 분석가"라는 검색결과는 분석가 개인이 작성하거나, 혹은 분석가 개인에게 도움이 되는 내용들, 어떻게 보면 일상에 녹아 있는 생생한 결과가 나오지만, 소셜 빅데이터에 대한 검색 결과는 개인보다는 기업이나 공공기관에서 작성한 것 같은, 그런 느낌의 글이 많다. 이는 아직까지 대중에게 "소셜 빅데이터"라는 용어가 그다지 익숙하지 않다는 방증이기도 하다. 소셜 빅데이터 분석가에 대한 글이 많지 않아 암묵적으로 소셜 빅데이터에 ..
약 6개월의 글또 활동을 마무리하는 글을 남겨보려고 한다. 뭔가 활동을 끝마치는 글을 쓰게 되니 뭔가 섭섭한 마음이 들기도 하다. 또, 이전에 회고 글을 썼을 때는 뭔가 해냈다는 마음으로 뿌듯한 마음이 컸었는데 이번에는 뿌듯함과 동시에 약간의 그림자가 남아 있어 스스로 의아한 마음이 들기도 하는데, 이런 생각을 글로 정리해보려고 한다. 활동 목표 활동 목표는 크게 2가지였다. 글쓰기의 즐거움을 느끼는 것글또 구성원 분들과 교류 기회를 많이 갖는 것이렇게 두 개였다. 다소 추상적인 목표이기는 한데, 내가 숲보다는 나무를 보는 경향이 있어서 목표를 구체적으로 잡으면 오히려 거기에 더 얽매일 것 같아서 목표를 다소 열어두었다. 이룬 것 글쓰기의 즐거움 느끼기 이 목표는 비교적 달성한 것 같다. 글감을 찾는 ..
회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다. 만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다. 그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요..
내가 성장하고 있는 걸까, 내가 조직에 도움이 되는 사람일까 라는 고민을 꽤 오래 지속했던 적이 있다. 일에 보람을 느끼면서 조금씩 성장하는 내 자신을 보며 뿌듯해하는 그런 모습을 상상했었는데, 늘 마음먹은 대로 이뤄지지는 않았다. 슬럼프의 정의는 "자신의 실력을 제대로 발휘하지 못하는 부진 상태가 긴 시간 이어지는 상황"이라고 한다. 내 경우는 자신의 실력을 제대로 발휘하지 못한다기 보다는 자신의 성장에 대해 자신감이 떨어진 상태였기 때문에 엄밀히는 슬럼프라고 부르기는 어려울 수는 있겠다. 그렇지만, 약간은 무기력하고 뭔가 속상한 마음이 계속 들었다는 점에서는 넓은 범주에서 슬럼프로 볼 수 있을 것 같다. 슬럼프를 극복하기 위해 노력한 것 처음에는 이성적으로 생각하려 노력했다. 내가 이런 저런 점은 부..
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다. 매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..