데이터 탐험노트

· 일상생각
🐴 들어가며글또(글 쓰는 또라이) 10기의 마지막 글 제출 주기가 다가왔다. 이미 글또 시작 다짐글, 마무리 회고글을 여러 차례 (그것도 별다른 설명 없이) 올린 터라 글또에 대해 설명하는 것이 스스로 새삼스럽다고 느끼고는 있지만, 혹시나 글또를 모르시는 분이 있을까 하여 간단히 설명을 해보려 한다. 글또는 개발자들이 2주에 한 번씩 기술 블로그에 글을 쓰고 그것을 인증하는 커뮤니티다. 큰 골자는 그렇지만 많은 사람들과 교류하며 개인의 성장을 도모할 수 있는 그런 역할도 톡톡히 했다. 나는 글또 5기부터 10기까지 총 6주기의 글또 활동에 참여했는데, 이번 글또 활동에 유독 감회가 남다른 건 이번이 글또의 마지막 기수이기 때문이다. 다시 말해 이번 10기가 글또 활동의 마지막이다. 열심히 하던 게임이 ..
· Statistics
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다.  ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
조금은 솔직하게 부끄러운 고백을 하자면, 나는 아이돌 노래에 진심이다. TMI지만 2010년도에 샤이니, 에프엑스를 시작으로 아이돌 노래에 입문하게 되었고, 요즘은 JYP 소속사의 스트레이키즈와 엔믹스에 조금 진심이다. 엔믹스(Nmixx)가 누구야? 엔믹스라는 그룹은 생소하더라도, 뉴진스라든가, 아이브라는 그룹은 익숙한 사람들이 많을 것 같기는 하다. 엔믹스는 뉴진스, 아이브, 르세라핌과 같은 아이돌 그룹과 데뷔 시기가 비슷해 4세대 여자 아이돌로 분류되고는 있지만, 국내에서의 대중성은 조금 낮은 편이다. 구글 검색어 트렌드로 4세대 걸그룹의 검색량을 비교해보면, 대중성의 차이를 조금 가늠할 수 있다. 보라색으로 표시되는 아이브가 검색량으로는 가히 압도적인데, 특히 4월 부근에 정규앨범 I've 을 내면..
· 일상생각
이 글은 데이터 분석가로서의 성장에 대한, 한 개인의 생각을 다룬 글이다. 스스로가 데이터 분석가로서 대표성을 띈다고 말할 수 있을 정도는 아니지만, 데이터 분석가를 준비하거나, 혹은 이제 막 데이터 분석가로서 커리어를 시작한 분들에게 개인 경험담을 나누고 싶어 글을 쓰게 되었다.  R vs Python 많이 나오는 떡밥 중 하나인 것 같다. 대부분 파이썬의 판정승에 손을 들어주는 분위기이지만, 개인적으로는 R 유저이기 때문에 R의 장점에 대해서도 어필해 볼 겸 글을 써본다. R의 장점 EDA나 통계 분석을 파이썬보다 손쉽게 할 수 있다는 것이 R의 특장점이라 생각한다. 가령 파이썬으로 간단한 라인 그래프를 그리기 위해서는 코드 라인이 길어지게 되고, 각 함수마다 일관성이 없어서(xlabel, ylabe..
· Statistics
회귀분석은 종속변수와 종속변수를 설명하는 설명변수의 조합으로, 변수 간 관계성을 규명하는데 사용되는 도구이다. 그래서인지 인과추론(Causal Inference)에서도, 머신러닝 등 예측(Prediction)에서도 마치 백종원 만능간장마냥 널리 사용되고 있다. 만일 예측 문제를 해결하기 위해 회귀분석을 사용한다면, 설명변수의 조합으로 종속변수를 얼마나 잘 맞출 수 있을지에 대해 관심을 갖게 되므로, 설명변수 각각의 회귀계수(Coefficient)보다는 MSE, MAE 와 같은 예측 지표에 관심을 더 가질 수 있을 것이다. 그렇지만, 처치(Treatment)가 결과변수(Outcome)에 어느 정도로 영향을 미치는지에 관심을 갖는다면, 처치 변수가 결과 변수에 미치는 영향력, 즉 처치변수의 회귀 계수를 중요..
오리duck
데이터 탐험 노트