데이터 탐험노트

· Statistics
들어가며통계학과를 졸업했지만 참으로 부끄럽게도 베이즈 통계를 제대로 공부하지 않아 어쩔 수 없이 역량의 부족으로 빈도주의자(frequentist)로 살아왔다. 빈도주의자든, 베이지안이든 어찌 됐든 결과만 나오면 어떻게든 괜찮다고 생각했는데 인과추론을 공부하든, 머신러닝을 공부하든 알음알음 베이지안 개념이 나오고, 그걸 대충 넘어가야만 하는 일들이 반복되면서 이대로는 안 되겠다는 생각이 들었다.   1분기에는 베이즈 통계학을 공부하며, (매우 얕고도 얕은) 통계 저변을 조금이나마 확장해보려고 한다. First Course in Bayesian Statistical Methods 라는 베이즈 통계학 기초 책을 보며 공부 중인데, 수식을 최소화하여 나만의 언어로 풀어서 글쓰기를 해 보는 것이 목표다!  통계학..
· 일상생각
이 글은 데이터 분석가로서의 성장에 대한, 한 개인의 생각을 다룬 글이다. 스스로가 데이터 분석가로서 대표성을 띈다고 말할 수 있을 정도는 아니지만, 데이터 분석가를 준비하거나, 혹은 이제 막 데이터 분석가로서 커리어를 시작한 분들에게 개인 경험담을 나누고 싶어 글을 쓰게 되었다.  R vs Python 많이 나오는 떡밥 중 하나인 것 같다. 대부분 파이썬의 판정승에 손을 들어주는 분위기이지만, 개인적으로는 R 유저이기 때문에 R의 장점에 대해서도 어필해 볼 겸 글을 써본다. R의 장점 EDA나 통계 분석을 파이썬보다 손쉽게 할 수 있다는 것이 R의 특장점이라 생각한다. 가령 파이썬으로 간단한 라인 그래프를 그리기 위해서는 코드 라인이 길어지게 되고, 각 함수마다 일관성이 없어서(xlabel, ylabe..
들어가며 요즘 내가 가장 열심히 하는 게임을 말하자면, 뭐니 뭐니 해도 피크민 블룸(Pikmin Bloom)이다. 간단히 게임에 대해 소개하자면, 나이앤틱(Niantic)과 닌텐도가 협업해서 만든 위치 기반 모바일 게임이다. 나이앤틱의 전작인 포켓몬고와 비슷하게 "걷기"에 게이미피케이션을 입힌 그런 게임이라 할 수 있는데, 유저는 걷기라는 행위를 통해 피크민을 수집하고, 피크민과 함께 꽃을 심으며 여러 가지 성장에 필요한 혜택을 얻을 수 있다. 이렇게 시간이 지나면 피크민과의 친밀도가 높아지면서 다양한 장식을 가진 피크민을 얻으며 수집의 즐거움을 누릴 수 있다. 처음에는 이 게임을 반신반의하며 시작했다. 포켓몬 고가 출시되었을 때 게임을 해 본 경험이 있는데, 약 1,000 시간의 포켓몬 플레이 경..
· Statistics
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다.     매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
오리duck
데이터 탐험 노트