2024년 돌아보기 2025년이 와 버리고 말았다. 시간이 지나면 지날수록 한 해가 바뀌는 게 참 무섭다는 생각이 든다. 매년 비슷한 패턴은 반복되지만 만족스러움이 크지는 않다보니 그저 나이만 먹고 있는 것이 아닌가 그런 불안감이 점점 더 커져오기 때문인 것 같다. 2024년을 되돌아보면, 이룬 게 없지만 또 이룬 것들이 있다. 작년의 목표는 나만의 분석 프로젝트 4개 진행해보기였다. 단 하나도 달성하지 못했지만 말이다. 시도를 하지 않은 건 아니었고, 첫 시도에 원하는 데이터를 구할 수가 없어서 그대로 손을 놔 버린게 실패 요인인 것 같다. 그렇다고 아무 것도 안 하고 손 놓고 있었느냐 하면 또 그건 아니다. 어쨌든 꾸준히 운동을 했고, 꾸준히 통계 공부를 했고, 꾸준히 시간관리(회고) 모임에 나갔..
분류 전체보기
인과효과를 추정하는 방법론 중 하나인 이중차분법에 대한 글을 써보려 한다. 이 글에서는 이중차분법의 기본 개념에 대해 다룬다. (이중차분법이란 무엇인지, 이를 사용하기 위해서는 어떤 가정을 만족해야 하는지)반면, 고급 DID 방법론(예. staggered DID, staggered DID에서 파생되는 Bad comparision 문제, local DID 등)에 대해서는 다루지 않는다.이중차분법에 대해 가볍게 알아보고 싶은 분들께 이 글이 도움이 될 수 있길 바라본다. 들어가며이중차분법에 대한 개념을 본격적으로 설명하기에 앞서 게임 데이터 분석가가 된 상황을 가정해보자. 우리 게임에서 “마법사”는 매우 매력적인 직업이지만 사용하기에 너무 어려워 해당 직업을 선택하는 유저가 적은 상황이다. 이에 대대적으로 ..
이 글은 데이터 분석가로서의 성장에 대한, 한 개인의 생각을 다룬 글이다. 스스로가 데이터 분석가로서 대표성을 띈다고 말할 수 있을 정도는 아니지만, 데이터 분석가를 준비하거나, 혹은 이제 막 데이터 분석가로서 커리어를 시작한 분들에게 개인 경험담을 나누고 싶어 글을 쓰게 되었다. R vs Python 많이 나오는 떡밥 중 하나인 것 같다. 대부분 파이썬의 판정승에 손을 들어주는 분위기이지만, 개인적으로는 R 유저이기 때문에 R의 장점에 대해서도 어필해 볼 겸 글을 써본다. R의 장점 EDA나 통계 분석을 파이썬보다 손쉽게 할 수 있다는 것이 R의 특장점이라 생각한다. 가령 파이썬으로 간단한 라인 그래프를 그리기 위해서는 코드 라인이 길어지게 되고, 각 함수마다 일관성이 없어서(xlabel, ylabe..
전에 쓴 글이 어쩐지 티스토리 오블완 챌린지로 카운트가 안 돼서... 그래도 한 번은 오블완 챌린지 기록을 남기고 싶어서 + 정신없는 11월을 한 번 돌아보는 느낌으로 간단 회고글을 써본다. 1. 11월의 루틴 "마이루틴"이라는 어플을 추천받아서 사용하고 있다. 계속 유지하고 싶은 습관들을 리스트업하고, 달성하면 체크하고, 얼마나 달성했는지 달성률을 보여주는 어플이다. 기능적으로는 단순한데 쓸데 없는 군더더기가 없어서 꽤 꾸준히 사용하게 된다. (역시 simple is best다.) 10개 루틴을 정해두고, 시간 순으로 정렬을 해 둔 상태인데 확실히 아침형 인간이다 싶은 게 아침에 소화하는 루틴(수면 시간 확인, 체중 기록, 독서, 운동 등)은 달성률이 좋은 반면 퇴근 후에 마무리를 지을 수 있는 ..
들어가며 출근길이다. 지하철 역에서 내려 회사까지 걸어간다. 출근길에는 늘 같은 자리에서 전단지를 나눠주는 분이 계신다. 보통 일반적으로 전단지는 지하철 역 앞에서 나눠주기 마련인데, 횡단보도 앞에 자리를 잡고 춤을 추듯 전단지를 나눠주는 분들 보며.. 처음에는 감탄을 금치 못했다. 지하철 역이 아닌데도 사람이 많이 다니는 장소를 발굴해 내다니! 신박하다! 그래서 처음에는 기꺼이 즐거운 마음으로 전단지를 받았다.. 문제는 같은 장소에서 출근길에 전단지를 맞닥뜨려야 하는 상황이었다. 강조되고 반복되는 전단지는 부담으로 다가왔다. 전단지를 받거나 거절해야만 저 길목을 지나갈 수 있다는 상황이 스트레스가 된 것이었다. 그러다 보니 매일 풀숲에서 야생 포켓몬이 전투를 거는 것 같은 기분이 들기도 했다. 전단..
오늘은 개입(intervention)과 뒷문기준(frontdoor criterion)에 대한 글을 써보려고 한다.이를 이해하기 위해서는 인과 그래프에 대한 선행지식이 필요하다. https://blessedby-clt.tistory.com/78 인과추론 학습기 - SCM과 인과 그래프오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서blessedby-clt.tistory.com 관련해서 이미 글을 쓴 것이 있어 참고해서 봐도 좋을 것 같다. 개인적으로 개입이나 뒷문기준을 이용해서 분석을 했던 경험은 없지만, 여러 인과추론의 주요 개념을 이해하기 위해서는 개입과 뒷문기준에 ..
오늘은 인과추론의 주요 개념 중 하나인 인과 그래프에 대한 글을 써보려고 한다.독립, 조건부 독립 등 기초 통계회귀분석에 대한 개념을 미리 알고 있어야 글을 이해하기 편할 것 같다.글에서는 다루지는 않지만, 베이지안 통계에 대한 이해도가 있으면 아래 설명을 기반으로 심화된 내용을 확장해서 찾아보기 편할 것 같다. 기본 용어SCM (Structural Causal Model) 한글로 그대로 직역하면 구조화된 인과모형이다. 즉, 인과관계를 구조적으로 설명하는 모델로서, 좀 더 자세히 말하면 변수 간의 인과 관계를 명시적으로 수식화하여 표현하는 모델이다. 이러한 모형을 사용하면 인과 관계의 방향성과 크기를 명확히 이해할 수 있다.예를 들어 하루 섭취한 칼로리가 500kcal를 넘어갈 때마다 체중 1kg가 증가..
독서를 한동안 멀리 하다 8월 말쯤부터 다시 책을 열심히 읽기 시작했다. 이동진 평론가처럼 책을 읽고 멋진 생각을 하지는 못하지만 그래도 출근길이나 주말에 몇 시간쯤 시간을 내서 책을 읽는 독서 애호가쯤은 될 것 같다. 프레이밍 효과로 독서량 회복하기 중간에 독서 공백기가 왜 발생하게 되었는가를 곰곰이 생각해 보면, 책을 접하는 시간이나 기회가 줄었기 때문인 것 같다. 이 무슨 동어반복 같은 이야기인가 싶을 수도 있겠다. 이해를 위해 좀 더 자세히 말해보자면 책꽂이에 쌓아두기만 하고 읽지 않은 책이 눈에 밟혔던 시기가 있었다. 좋아보여서 책을 샀다가 관심에서 멀어지면서 자연히 안 읽게 된 책들이었는데 대개 자기 계발서나 실용서의 성격을 띤 책들이 잔여 이슈(?)처럼 남아 있었다. 그런데 그 양이 제법..
해당 게시글은 머신러닝을 활용한 웹 최적화 (한빛미디어, 이쓰카 슈헤이 저자)를 읽고 작성한 글이지만,일부 예시만 인용하고 나머지는 제 생각이나 공부한 내용을 담은 글이라 실제 책의 내용과 다른 구성을 취하고 있습니다. AB 테스트를 하는 상황 "웹"이라 함은 역시 뭐니뭐니해도 AB 테스트가 제일 베이직한듯 하다. 두 가지 다른 버튼 디자인(A안, B안)에 따라 클릭률(CPR)의 지표를 비교하는 상황이다. 앨리스의 보고서A안B안표시 횟수4050클릭 횟수24클릭률5%8%밥의 보고서A안B안표시 횟수12801600클릭 횟수64128클릭률5%8% 앨리스와 밥의 보고서 모두 A안의 클릭률이 5%, B안의 클릭률은 8%이다.이 때 단순히 B안의 CPR이 더 높기 때문에, B안이 정말 더 CPR이 높다고 말해도 되는..
회고는 정말 어려운 일이다. 회고가 좋다는 건 누구나 알지만, 시간을 내서 뭔가를 돌아보는 게 정말로 어렵게 느껴진다.그나마 몇 달 전까지는 시지삶이라는 회고 모임에 참여했기 때문에 잘하든 못하든 꾸준히 회고라는 것에 시간을 투입할 수 있었는데, 최근에 시지삶에 참여하지 못하게 되면서 정말 걷잡을 수 없이 회고와 멀어지게 되어버렸다. 그래도 N개월 이상 회고를 하는 습관이 들어서 괜찮지 않을까 싶었는데, 루틴을 유지해야 하는 목적이 상실되니 마치 모래성같이 회고 습관이 사르르 무너져버리고 말았다. 이에 다시 한 번 회고에 대한 마음을 다 잡기 위해 오랜만에 블로그에 글을 남겨본다. (이 글도 몇 번을 미루다 쓴 건 함정) 회고의 어려움에 대한 회고1. 측정 가능한 목표가 없음. 측정 가능한 목표가 없..