회고글은 편하게 써야 할 것 같아, 경어체 대신 평어(예의있는 반말이라고 한다.)로 써보려 한다. 블로그 내적인 변화 5~6기에는 글을 써보는 습관을 기르는데 집중했다면, 7기에는 좀 더 독자친화적인 마인드로 접근해보자고 다짐했었다. 이를 위해 일기 쓰듯 보이지 않으려면 일단 경어를 써보자 기술 관련 포스팅의 비중을 높이자 사람들이 관심 있어 할만한 글을 써보자 라는 3개의 목표를 세웠드랬다. '반말을 쓰지 않겠다'는 정말 반말만 쓰지 않으면 되기 때문에 비교적 쉽게 달성 가능한 목표였다. 동시에 '경어로 글을 쓰는 것'은 다른 목표의 수단이기도 했는데, 일기를 경어로 쓸 수는 없었기 때문에 해당 목표를 통해 자연스레 기술 관련 포스팅을 늘리게 되었던 것 같다. 5기, 6기에는 에세이/독후감 : 기술(파..
분류 전체보기
시계열 공부를 하면서 'SARIMA (Seasonal ARIMA)'는 ARIMA 모형에 계절성 부분만 추가한 버전이다.' 하고 넘어가기 일쑤였는데, 이렇게 넘어가는 게 아니라 한 번쯤은 ARIMA와 함께 SARIMA를 짚고 가면 좋을 것 같아 글을 써 봅니다. 최대한 시계열 개념을 직관적으로 설명하는 것이 목표지만, ARIMA에 대해 어느 정도 지식이 있거나,차분 / Moving Average 등의 용어에 익숙한 경우에글을 이해하기에 더 편할 것 같습니다. ARIMA란? ARIMA 라는 용어는 크게 AR + I + MA 3등분으로 나눠서 이해하면 편합니다.ARIMA 모형은 AR(AutoRegressive) + I (Integrated) + MA(Moving Average) 각각 3파트로 분리가 됩니다...
시계열 분석을 오랜만에 공부하면서, '단위근 검정', '자기상관 검정' 등 시계열 분석에 필요한 검정 방법에 대해서도 다시 공부하게 되었습니다. 이전에 개념을 제대로 못 잡은 탓인지 몰라도 몇 가지 의문이 들었었는데 단위근 검정 = 정상성을 확인하기 위한 검정이고, 정상성은 약정상성 기준으로 평균, 분산이 일정하고 자기상관이 시차에만 의존하는 경우 자기상관 검정 = 잔차의 자기상관이 있는지 확인하기 위한 검정 단위근 검정에서 말하는 자기상관과 자기상관검정에서 말하는 자기상관이 뭐가 다르지? 비슷한건가? 비슷한 거면 자기상관 검정 왜 함? 의 흐름으로 궁금증이 들었습니다. 기존에 알고 있다고 생각한 개념이 제대로 잡히지 않은 것 같아, 이번 기회에 정상성과 단위근검정, 자기상관검정 개념을 정리해보려고 합니..
이번에는 여러 종류의 확률분포에 대한 글을 작성해보려고 합니다. (ex. 이항분포, 정규분포..) 어떤 거창한 의미가 있는 것은 아니고, '개인적으로 공부한 것을 정리해보자!' 하는 취지의 글이기는 해요. 그렇지만 저와 비슷한 상황에 놓인 어떤 누군가에게도 도움이 되길 바라봅니다. 참고로 연속확률분포 / 이산확률분포를 따로 구분하여 작성하지는 않았습니다! 베르누이 분포, 이항분포 통계학에서 가장 기초가 되는 분포라고 할 수 있겠습니다. 옛날에 어떤 자격증 시험(정확히 기억 안남) 보기에 '이항분포', '베르누이 분포'가 동시에 보기로 나와서 갑론을박이 벌어졌던 것 같은 기억이 있는데요.(사실 이것도 정확히 기억 안 남.) 아무튼 요는 같은 뿌리에서 나온 분포이기 때문에 대충 개념만 알면 어떻게든 된다는 ..
조지 스웨인 교수의 '공부책(How to Study)'이라는 책을 읽고 느낀 점을 작성해보려고 합니다. 표지에서부터 상당한 어그로(..)가 뿜뿜하는데(마치 지하철 광고판이나 인스타그램 광고에서 보일 것 같은 느낌) 실제 책의 내용은 결코 가볍지 않습니다. 오히려 책 표지 때문에 책 이미지가 손해를 보는 게 아닌가 싶을 정도로요..! 그래서 이 책은 어떤 책인가? 'How to Study'라는 부제처럼 공부하는 방법에 대한 책입니다. TMI이기는 하지만, 저는 공부하기 싫을 때 뭐라도 하는 느낌을 내고 싶어서, 자기 계발과 관련된 실용 서적들을 자주 읽는 편인데요. 제가 읽었던 다른 책들과 달리 '공부책'은 좀 더 근본에 집중하는 느낌입니다. 그렇다고 해서 다른 자기 계발 책과 동떨어진 이야기를 하는 건 ..
이 글은 뒤늦게 커리어를 시작하려고 하는 당신에게, 그리고 뒤늦게 커리어를 시작하고 있는 제 자신에게 쓰는 글입니다. 뒤늦게 커리어를 바꾼 저는 어떤 상황이었는지 데이터 분석가로서 입사하기 위해 어떤 것들을 노력하면 좋을지 어떤 것들을 공부하면 좋을지, 저는 어떤 것들을 공부하고 있는지 에 대한 이야기를 써보려고 합니다. 1. 나의 이야기 저는 첫 취업을 느즈막히 시작해서, 중간에 '데이터 분석가'로 직종을 바꾼 케이스입니다. 완전히 비전공자는 아니지만(통계학을 전공했기 때문에), 학부만 졸업한데다가 이전에 했던 회사에서 데이터를 다루기는 했지만, Excel, Powerpoint의 툴만 썼기 때문에 오히려 저를 비전공자로 간주하는 게 더 맞을 것 같네요. 그래도 SQL이나 R을 써 본 경험은 있었고, 어..
회귀분석을 공부하다보면 주성분분석(Principal Component Analysis, PCA)에 대한 이야기는 꼭 한 번씩 나오게 됩니다. 막연히 '주성분분석은 차원축소에 사용함', '주성분분석으로 기존 정보를 최대한 확보하는 새로운 변수를 생성함' 등의 내용을 공부하면서 보게 되는데, 오늘은 이 막연한 개념을 정리하는 시간을 가져보려고 합니다. 1. PCA 사용 목적 위에서 간략하게 썼던 것처럼 주성분분석(PCA)은 고차원의 데이터를 저차원의 데이터로 만드는데 사용합니다. 그리고 회귀분석 관점에서는 '다중공선성 문제를 완화'하는데 사용한다고 말합니다. 다중공선성은 설명변수들끼리 서로 상관성이 높을 때, 모형의 회귀계수의 표준오차를 크게 만들어서 모형에 유의한 변수를 찾기 어렵게 만드는 문제를 의미합니..
최근 인과분석을 공부하고 있습니다. 아는 게 많지 않아서 요런 Youtube(인과추론의 데이터과학)도 보고 있고, 요런 책들도 보면서 틈나는대로 공부를 하고 있는데, 공부하면서 요즘 제가 갖고 있는 고민들에 적용해볼만한 것들이 많은 것 같아 인과분석에 대한 개념 인과분석 관점으로 바라본 인생 고민 을 간략하게 기록으로 남겨보려고 합니다. 인과분석 기본개념 인과, 말 그대로 원인과 결과를 다루는 분석이라고 볼 수 있습니다. 그리고 많은 사람들이 찾고자 하는 궁극적인 목표가 아닐까 생각합니다. 마케팅 담당자는 '광고 집행이 실제 매출에 영향을 줄까?'를 알고 싶을 것이고, 정책 입안자는 '정책이 긍정적 효과가 있을까?'를 궁금해할 것이고, 저조차도 업무를 하면서 '특정 이벤트가 유저의 행동 패턴에 영향을 줄..
불과 얼마 전까지만 해도 regression을 가볍게 생각하고 있었습니다. R 콘솔창에 lm(data = data, y ~ X+Z) 만 입력해도 모델링 결과는 쉽게 얻을 수 있었기 때문이지요. 그러나 최근 선형대수학, 회귀분석, 인과분석을 공부하면서 '굉장히 얕은 수준만을 맛보고 안다고 착각하고 있었구나' 하고 깨닫는 순간이 있었고, 기초를 다진다는 느낌으로 관련 내용을 정리해보는 시간을 갖기로 마음먹었습니다. 그리고 이를 위한 첫번째 스텝으로 선형대수에서 꼭 알아야 하는 기초 개념 (자세한 내용은 맨 하단 참고링크를 따라가시는 것을 추천드려요! 😃) 기초 개념이 어떻게 회귀분석과 연결되는지 를 나름의 견해를 담아 정리해보았습니다. linearly independent 해당 개념은 선형대수학 책을 펼치면..
이번 기수에도 글또를 참여하게 되었습니다. 글또가 뭔지 모르고 이 글을 읽는 분들이 있지도 않을까 싶지만은, 다짐글을 쓰는 게 목적이기 때문에 관련해서는 글또 소개 페이지 링크만 간략하게 남기고 글또에 참여하는 제 마음가짐과, 앞으로의 목표를 남겨보려고 합니다. 글또에 참여하는 마음가짐 저는 글또 5기, 6기에 이어 7기에 참여하게 되었습니다. 글또 활동을 하면서 커리어든, 제 마음가짐이든 긍정적 방향으로 변곡점이 왔었던 것 같습니다. 참여 기수가 3번밖에 되지 않기 때문에 일반화하기에는 표본이 적기는 하지만, 글또 참여 직전에 제 상태가 썩 좋지 않았다가, 글또 활동을 마치고 회고글을 남길 때에는 긍정적인 방향으로 사고가 바뀌었었거든요. 이전 경험을 간략하게 정리해보자면... 5기 : 데이터 분석가로 ..