🐴 들어가며글또(글 쓰는 또라이) 10기의 마지막 글 제출 주기가 다가왔다. 이미 글또 시작 다짐글, 마무리 회고글을 여러 차례 (그것도 별다른 설명 없이) 올린 터라 글또에 대해 설명하는 것이 스스로 새삼스럽다고 느끼고는 있지만, 혹시나 글또를 모르시는 분이 있을까 하여 간단히 설명을 해보려 한다. 글또는 개발자들이 2주에 한 번씩 기술 블로그에 글을 쓰고 그것을 인증하는 커뮤니티다. 큰 골자는 그렇지만 많은 사람들과 교류하며 개인의 성장을 도모할 수 있는 그런 역할도 톡톡히 했다. 나는 글또 5기부터 10기까지 총 6주기의 글또 활동에 참여했는데, 이번 글또 활동에 유독 감회가 남다른 건 이번이 글또의 마지막 기수이기 때문이다. 다시 말해 이번 10기가 글또 활동의 마지막이다. 열심히 하던 게임이 ..
들어가며베이지안 통계를 한 마디로 가볍게 설명하면 나의 사전분포와 데이터에 기반한 증거를 기반으로, 사후분포를 갱신한 후 사후분포에서 모수가 어떻게 되는지를 추정하는 것이라 할 수 있다. 사전분포와 likelihood를 알면 바로 사후분포를 정의할 수 있는 경우, 즉 conjugate 한 경우는 앞에서 말했듯 사후분포를 바로 정의할 수 있기 때문에 모수를 추정하는 것이 쉬운 일이 된다. (conjugate에 대한 설명은 해당 링크를 참고해주시면 감사하겠습니다 땡큐) 그러나 사후분포를 계산하는 것이 어렵거나, 사후분포 자체를 정의하기 어려운 경우에는 시뮬레이션을 사용하게 되는데 이때 대표적으로 사용하는 방법이 MC(Monte Carlo), Gibbs Sampler, Metropolis 알고리즘이다. 이..
들어가며 데이터 분석가로 업무를 하다 보면 슬슬 쿼리의 정확도(쿼리를 통해 원하는 데이터를 정확하게 추출하였는가) 이외에 쿼리 최적화에 대해 관심을 갖게 된다. 자칫 잘못하면 매우 큰 비용의 쿼리를 사용하게 되거나(omg...), 작성한 쿼리가 한참 돌면서 매우 많은 슬롯을 사용하게 되는 문제가 발생하기 때문이다.큰 비용의 쿼리를 사용한다 = 물리적으로 돈이 들어감많은 슬롯을 사용한다 = 가상의 빅쿼리 CPU를 많이 사용. 특정 상황이 아니면 물리적으로 비용이 발생하지 않지만 슬롯 관리를 못할 경우 쿼리 속도가 매우 느려지고, 다른 사람의 자원을 잡아먹게 될 수도 있어 문제가 발생할 수 있음.이런 문제를 일으키면 금쪽이 데이터 분석가가 될 수 있기 때문에 쿼리 최적화와 관련하여 노력했던 부분을 간략히 소..
들어가며 요즘 부쩍 데이터 분석가들 사이에서 인과추론이 핫하다는 느낌을 받는다. 내가 공부를 하고 있기 때문에 더 눈에 잘 보이는 것일 수 있지 않을까 싶기도 하지만.. 처음으로 인과추론 공부를 시작한 2022년과 비교해 보자면, 그때에 비해 인과추론을 학습하는 글들이 많이 늘어난 것을 체감한다. 인과추론이란 어떤 처치가 이루어졌을 때, 그것이 효과를 만들어냈는지, 효과를 만들어냈다면 어느 정도의 영향력이 있었는지를 분석을 통해 추정하는 방법론이다. 만일 AB 테스트 등 실험 설계가 가능한 환경에 있다면, 실험을 통해 처치의 효과를 파악할 수 있겠지만(실험설계를 잘 해내야 하는 상황은 차치하고..), 만일 실험이 불가능한 환경에 속해 있다면 어떻게든 동아줄이라도 붙잡는 마음으로 다른 방법을 찾아내야 ..
들어가며 누군가 내게 2024년의 가장 큰 사건을 꼽으라면, 한강 작가의 "노벨 문학상 수상"을 말할 것 같다. 평소에 문학을 즐겨 읽는 사람은 아니지만 노벨 문학상의 위상은 알고 있기에, 우리나라에서 노벨 문학상을 수상한 작가가 나왔다는 사실이 매우 뜻깊게 다가왔기 때문이다. 또, 노벨 문학상 작품을 원서로 읽어볼 수 있다는 것이 어느 정도 큰 가치인지도 알고 있기에 노벨 문학상 수상 발표 직후에 이 가치를 누리기 위해 "작별하지 않는다"를 구매했다. 하지만 안타깝게도 한강 작가의 책이 품절되는 대란이 일어나면서 책을 주문해도 끊임없이 배송이 지연되는 상황이 일어났다. 그렇게 뒤늦게 온 책은 한 쪽 귀퉁이가 찍혀서 왔지만, 워낙 책을 구하기 어려웠기 때문에 별다른 반품 조치 없이 그냥 봤드랬다. (슬..
들어가며통계학과를 졸업했지만 참으로 부끄럽게도 베이즈 통계를 제대로 공부하지 않아 어쩔 수 없이 역량의 부족으로 빈도주의자(frequentist)로 살아왔다. 빈도주의자든, 베이지안이든 어찌 됐든 결과만 나오면 어떻게든 괜찮다고 생각했는데 인과추론을 공부하든, 머신러닝을 공부하든 알음알음 베이지안 개념이 나오고, 그걸 대충 넘어가야만 하는 일들이 반복되면서 이대로는 안 되겠다는 생각이 들었다. 1분기에는 베이즈 통계학을 공부하며, (매우 얕고도 얕은) 통계 저변을 조금이나마 확장해보려고 한다. First Course in Bayesian Statistical Methods 라는 베이즈 통계학 기초 책을 보며 공부 중인데, 수식을 최소화하여 나만의 언어로 풀어서 글쓰기를 해 보는 것이 목표다! 통계학..
2024년 돌아보기 2025년이 와 버리고 말았다. 시간이 지나면 지날수록 한 해가 바뀌는 게 참 무섭다는 생각이 든다. 매년 비슷한 패턴은 반복되지만 만족스러움이 크지는 않다보니 그저 나이만 먹고 있는 것이 아닌가 그런 불안감이 점점 더 커져오기 때문인 것 같다. 2024년을 되돌아보면, 이룬 게 없지만 또 이룬 것들이 있다. 작년의 목표는 나만의 분석 프로젝트 4개 진행해보기였다. 단 하나도 달성하지 못했지만 말이다. 시도를 하지 않은 건 아니었고, 첫 시도에 원하는 데이터를 구할 수가 없어서 그대로 손을 놔 버린게 실패 요인인 것 같다. 그렇다고 아무 것도 안 하고 손 놓고 있었느냐 하면 또 그건 아니다. 어쨌든 꾸준히 운동을 했고, 꾸준히 통계 공부를 했고, 꾸준히 시간관리(회고) 모임에 나갔..
인과효과를 추정하는 방법론 중 하나인 이중차분법에 대한 글을 써보려 한다. 이 글에서는 이중차분법의 기본 개념에 대해 다룬다. (이중차분법이란 무엇인지, 이를 사용하기 위해서는 어떤 가정을 만족해야 하는지)반면, 고급 DID 방법론(예. staggered DID, staggered DID에서 파생되는 Bad comparision 문제, local DID 등)에 대해서는 다루지 않는다.이중차분법에 대해 가볍게 알아보고 싶은 분들께 이 글이 도움이 될 수 있길 바라본다. 들어가며이중차분법에 대한 개념을 본격적으로 설명하기에 앞서 게임 데이터 분석가가 된 상황을 가정해보자. 우리 게임에서 “마법사”는 매우 매력적인 직업이지만 사용하기에 너무 어려워 해당 직업을 선택하는 유저가 적은 상황이다. 이에 대대적으로 ..
이 글은 데이터 분석가로서의 성장에 대한, 한 개인의 생각을 다룬 글이다. 스스로가 데이터 분석가로서 대표성을 띈다고 말할 수 있을 정도는 아니지만, 데이터 분석가를 준비하거나, 혹은 이제 막 데이터 분석가로서 커리어를 시작한 분들에게 개인 경험담을 나누고 싶어 글을 쓰게 되었다. R vs Python 많이 나오는 떡밥 중 하나인 것 같다. 대부분 파이썬의 판정승에 손을 들어주는 분위기이지만, 개인적으로는 R 유저이기 때문에 R의 장점에 대해서도 어필해 볼 겸 글을 써본다. R의 장점 EDA나 통계 분석을 파이썬보다 손쉽게 할 수 있다는 것이 R의 특장점이라 생각한다. 가령 파이썬으로 간단한 라인 그래프를 그리기 위해서는 코드 라인이 길어지게 되고, 각 함수마다 일관성이 없어서(xlabel, ylabe..
전에 쓴 글이 어쩐지 티스토리 오블완 챌린지로 카운트가 안 돼서... 그래도 한 번은 오블완 챌린지 기록을 남기고 싶어서 + 정신없는 11월을 한 번 돌아보는 느낌으로 간단 회고글을 써본다. 1. 11월의 루틴 "마이루틴"이라는 어플을 추천받아서 사용하고 있다. 계속 유지하고 싶은 습관들을 리스트업하고, 달성하면 체크하고, 얼마나 달성했는지 달성률을 보여주는 어플이다. 기능적으로는 단순한데 쓸데 없는 군더더기가 없어서 꽤 꾸준히 사용하게 된다. (역시 simple is best다.) 10개 루틴을 정해두고, 시간 순으로 정렬을 해 둔 상태인데 확실히 아침형 인간이다 싶은 게 아침에 소화하는 루틴(수면 시간 확인, 체중 기록, 독서, 운동 등)은 달성률이 좋은 반면 퇴근 후에 마무리를 지을 수 있는 ..