데이터 탐험노트

· 일상생각
이 글은 데이터 분석가로서의 성장에 대한, 한 개인의 생각을 다룬 글이다. 스스로가 데이터 분석가로서 대표성을 띈다고 말할 수 있을 정도는 아니지만, 데이터 분석가를 준비하거나, 혹은 이제 막 데이터 분석가로서 커리어를 시작한 분들에게 개인 경험담을 나누고 싶어 글을 쓰게 되었다.  R vs Python 많이 나오는 떡밥 중 하나인 것 같다. 대부분 파이썬의 판정승에 손을 들어주는 분위기이지만, 개인적으로는 R 유저이기 때문에 R의 장점에 대해서도 어필해 볼 겸 글을 써본다. R의 장점 EDA나 통계 분석을 파이썬보다 손쉽게 할 수 있다는 것이 R의 특장점이라 생각한다. 가령 파이썬으로 간단한 라인 그래프를 그리기 위해서는 코드 라인이 길어지게 되고, 각 함수마다 일관성이 없어서(xlabel, ylabe..
들어가며 요즘 내가 가장 열심히 하는 게임을 말하자면, 뭐니 뭐니 해도 피크민 블룸(Pikmin Bloom)이다. 간단히 게임에 대해 소개하자면, 나이앤틱(Niantic)과 닌텐도가 협업해서 만든 위치 기반 모바일 게임이다. 나이앤틱의 전작인 포켓몬고와 비슷하게 "걷기"에 게이미피케이션을 입힌 그런 게임이라 할 수 있는데, 유저는 걷기라는 행위를 통해 피크민을 수집하고, 피크민과 함께 꽃을 심으며 여러 가지 성장에 필요한 혜택을 얻을 수 있다. 이렇게 시간이 지나면 피크민과의 친밀도가 높아지면서 다양한 장식을 가진 피크민을 얻으며 수집의 즐거움을 누릴 수 있다. 처음에는 이 게임을 반신반의하며 시작했다. 포켓몬 고가 출시되었을 때 게임을 해 본 경험이 있는데, 약 1,000 시간의 포켓몬 플레이 경..
· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
· Statistics
배경 최근 매칭을 업무에 오랜만에 써보는 일이 있었다. 오랜만에 써봐서 잊고 있었는데 매칭은 은근 분석에 도움이 되어, 가끔씩이라도 쓰게 되는 일이 있는 것 같다는 생각이 들었다. 향후 다시 매칭을 써먹을 나를 위해, 그리고 매칭을 적용해보고 싶은 사람들을 위해 정리할 겸 글을 남기게 되었다. 글은 매칭의 개념, 매칭의 한계, 매칭 방법에 대한 간단한 소개, 매칭에 사용하는 코드(R 위주) 순으로 진행하려 한다.     매칭의 개념 및 목적 매칭은 간단히 말하면 Treatment 그룹(처치군 ; 처치를 받은 대상)과 Control 그룹(대조군 ; 처치를 받지 않은 대상) 간 특성이 비슷한 사람을 짝지어주는 것을 의미한다. 이러한 짝짓기가 필요한 이유는 Selection Bias(선택 편향) 때문인데, 선..
· Statistics
인과효과를 추정하는 방법론 중 하나인 이중차분법에 대한 글을 써보려 한다. 이 글에서는 이중차분법의 기본 개념에 대해 다룬다. (이중차분법이란 무엇인지, 이를 사용하기 위해서는 어떤 가정을 만족해야 하는지)반면, 고급 DID 방법론(예. staggered DID, staggered DID에서 파생되는 Bad comparision 문제, local DID 등)에 대해서는 다루지 않는다.이중차분법에 대해 가볍게 알아보고 싶은 분들께 이 글이 도움이 될 수 있길 바라본다. 들어가며이중차분법에 대한 개념을 본격적으로 설명하기에 앞서 게임 데이터 분석가가 된 상황을 가정해보자. 우리 게임에서 “마법사”는 매우 매력적인 직업이지만 사용하기에 너무 어려워 해당 직업을 선택하는 유저가 적은 상황이다. 이에 대대적으로 ..
오리duck
데이터 탐험 노트