이 글은 뒤늦게 커리어를 시작하려고 하는 당신에게, 그리고 뒤늦게 커리어를 시작하고 있는 제 자신에게 쓰는 글입니다. 뒤늦게 커리어를 바꾼 저는 어떤 상황이었는지 데이터 분석가로서 입사하기 위해 어떤 것들을 노력하면 좋을지 어떤 것들을 공부하면 좋을지, 저는 어떤 것들을 공부하고 있는지 에 대한 이야기를 써보려고 합니다. 1. 나의 이야기 저는 첫 취업을 느즈막히 시작해서, 중간에 '데이터 분석가'로 직종을 바꾼 케이스입니다. 완전히 비전공자는 아니지만(통계학을 전공했기 때문에), 학부만 졸업한데다가 이전에 했던 회사에서 데이터를 다루기는 했지만, Excel, Powerpoint의 툴만 썼기 때문에 오히려 저를 비전공자로 간주하는 게 더 맞을 것 같네요. 그래도 SQL이나 R을 써 본 경험은 있었고, 어..
분류 전체보기
회귀분석을 공부하다보면 주성분분석(Principal Component Analysis, PCA)에 대한 이야기는 꼭 한 번씩 나오게 됩니다. 막연히 '주성분분석은 차원축소에 사용함', '주성분분석으로 기존 정보를 최대한 확보하는 새로운 변수를 생성함' 등의 내용을 공부하면서 보게 되는데, 오늘은 이 막연한 개념을 정리하는 시간을 가져보려고 합니다. 1. PCA 사용 목적 위에서 간략하게 썼던 것처럼 주성분분석(PCA)은 고차원의 데이터를 저차원의 데이터로 만드는데 사용합니다. 그리고 회귀분석 관점에서는 '다중공선성 문제를 완화'하는데 사용한다고 말합니다. 다중공선성은 설명변수들끼리 서로 상관성이 높을 때, 모형의 회귀계수의 표준오차를 크게 만들어서 모형에 유의한 변수를 찾기 어렵게 만드는 문제를 의미합니..
최근 인과분석을 공부하고 있습니다. 아는 게 많지 않아서 요런 Youtube(인과추론의 데이터과학)도 보고 있고, 요런 책들도 보면서 틈나는대로 공부를 하고 있는데, 공부하면서 요즘 제가 갖고 있는 고민들에 적용해볼만한 것들이 많은 것 같아 인과분석에 대한 개념 인과분석 관점으로 바라본 인생 고민 을 간략하게 기록으로 남겨보려고 합니다. 인과분석 기본개념 인과, 말 그대로 원인과 결과를 다루는 분석이라고 볼 수 있습니다. 그리고 많은 사람들이 찾고자 하는 궁극적인 목표가 아닐까 생각합니다. 마케팅 담당자는 '광고 집행이 실제 매출에 영향을 줄까?'를 알고 싶을 것이고, 정책 입안자는 '정책이 긍정적 효과가 있을까?'를 궁금해할 것이고, 저조차도 업무를 하면서 '특정 이벤트가 유저의 행동 패턴에 영향을 줄..
불과 얼마 전까지만 해도 regression을 가볍게 생각하고 있었습니다. R 콘솔창에 lm(data = data, y ~ X+Z) 만 입력해도 모델링 결과는 쉽게 얻을 수 있었기 때문이지요. 그러나 최근 선형대수학, 회귀분석, 인과분석을 공부하면서 '굉장히 얕은 수준만을 맛보고 안다고 착각하고 있었구나' 하고 깨닫는 순간이 있었고, 기초를 다진다는 느낌으로 관련 내용을 정리해보는 시간을 갖기로 마음먹었습니다. 그리고 이를 위한 첫번째 스텝으로 선형대수에서 꼭 알아야 하는 기초 개념 (자세한 내용은 맨 하단 참고링크를 따라가시는 것을 추천드려요! 😃) 기초 개념이 어떻게 회귀분석과 연결되는지 를 나름의 견해를 담아 정리해보았습니다. linearly independent 해당 개념은 선형대수학 책을 펼치면..
이번 기수에도 글또를 참여하게 되었습니다. 글또가 뭔지 모르고 이 글을 읽는 분들이 있지도 않을까 싶지만은, 다짐글을 쓰는 게 목적이기 때문에 관련해서는 글또 소개 페이지 링크만 간략하게 남기고 글또에 참여하는 제 마음가짐과, 앞으로의 목표를 남겨보려고 합니다. 글또에 참여하는 마음가짐 저는 글또 5기, 6기에 이어 7기에 참여하게 되었습니다. 글또 활동을 하면서 커리어든, 제 마음가짐이든 긍정적 방향으로 변곡점이 왔었던 것 같습니다. 참여 기수가 3번밖에 되지 않기 때문에 일반화하기에는 표본이 적기는 하지만, 글또 참여 직전에 제 상태가 썩 좋지 않았다가, 글또 활동을 마치고 회고글을 남길 때에는 긍정적인 방향으로 사고가 바뀌었었거든요. 이전 경험을 간략하게 정리해보자면... 5기 : 데이터 분석가로 ..
얼마 전 "그릿"이라는 책을 읽었다. "그릿"이 무엇인가 하면, 자신이 성취하고자 하는 바를 꾸준히 정진하도록 만드는 의지이자 끈기라고 할 수 있겠다. 결국 재능보다는 노력, 끈기, 꾸준함이라는 것인데 고등학교를 졸업(벌써 얼마나 오래전일인가)한 이후로 무언가를 끝까지 마무리지었던 경험이 많지 않았던 것 같아 읽는 동안 얼굴이 후끈거렸다. 특히나 글또 활동을 하면서, 실력도 좋은데 또 노력까지 열심히 하시는 분들과 함께 활동하니, '나는 재능도 없는데 심지어 노력까지 하지 않는단 말인가?' 싶어 반성하게 되는 지점도 꽤나 많았다. 동시에 열심히 노력하는 분들에게 자극을 받다보니 미약하게나마 한 발자국씩 내딛을 수 있었다. 그러니까 나와 타인을 비교하면 '반성'의 마음이 올라오지만, '과거의 나'와 '오늘..
시계열 공부를 하며 이래저래 인생에 적용해봄직한 부분을 정리해 보았습니다. 수식은 최소화하고 감성은 한껏 담아 글을 써보려고 합니다. 1. Wold Decomposition & Stationary(정상성) '오늘의 나'라는 존재는 단독으로 존재할 수 없는 법입니다. 이게 무슨 해괴망측한 소리인가 하면, 어제의 나, 그제의 나, 일주일 전의 나, 몇 개월 전의 나라는 존재가 경험한 것들이 있었기에 "오늘의 내"가 존재할 수 있다는 것이지요. 그리고 내일의 나도 오늘의 나의 영향력에서 자유롭지 못할 것입니다. $$Y_{T} =\mu + \psi_{t-1}e_{t-1} + \psi_{t-2}e_{t-2}+ \psi_{t-3}e_{t-3}+\psi_{t-4}e_{t-4}+... \psi_{t-j}e_{t-j} ..
지난번에 이어 매번 쓰지만 매번 쓸 때마다 헷갈리는 ggplot 사용법에 대해 정리해두려고 한다. https://blessedby-clt.tistory.com/28 맨날 헷갈리는 ggplot 시각화 정리(1) R 원툴이라 ggplot2 패키지를 사용할 일이 많은데도 불구하고, 매번 비슷비슷한 걸로 헷갈려서 한 번 정리 해보는 시간을 가져보기로 했다. 패키지 사용법을 정리하기 전에, 먼저 간단하게 준비물 blessedby-clt.tistory.com 지난번에 쓴 글만 봐도 기본적인 그래프를 그리는 데 문제는 없지만, 축을 변경한다거나 제목을 단다거나 하는 그래프 부가적인 요소는 처리할 수 없다. 하지만 실질적으로 그래프를 쓸 때마다 헷갈리는 건 사소하지만 사소하지 않은, 이런 디자인과 관련된 부분이기에 이..
R 원툴이라 ggplot2 패키지를 사용할 일이 많은데도 불구하고, 매번 비슷비슷한 걸로 헷갈려서 한 번 정리 해보는 시간을 가져보기로 했다. 패키지 사용법을 정리하기 전에, 먼저 간단하게 준비물을 설명하자면 아래와 같다. library(tidyverse) ## ggplot2 패키지가 내장되어 있음. library(gridExtra) ## 여러 그래프를 한 번에 보여줄 때 사용함. library(ggrepel) ## 레이블을 겹치지 않게 보여줄 때 사용함 library(GGally) ## 여러 변수 간 산점도를 보여줄 때 사용함. 이 중에서 사실 tidyverse 패키지만 있어도 그래프 작성에 큰 문제는 없다. 1. ggplot2 패키지 개요 분석이나 프로그래밍에 조예가 깊은 사람이라면 ggplot2 패..
생활의 달인을 즐겨보는 편은 아니지만, TV 채널을 여기저기 돌리다가 생활의 달인을 보게 될 때가 있다. 달인이라고 불리는 사람들은 십수년을 한 분야에 종사하며, 나름의 노하우를 익히고 그 노하우를 통해 일반적인 사람들이 해낼 수 없는 수준의 것들을 해낸다. 그걸 보면 대개 "신기하다"하고 넘어갈 때가 많은데, 요즘은 종종 이런 생각을 한다. '나도 저런 달인이 될 수 있을까?' 그러면 '데이터의 달인이 되기 위해서는 무엇이 필요할까?'라는 생각으로 자연스레 이어지는데, 'R이나 파이썬을 빠삭하게 쓸 수 있는 스킬, 단순한 기초 통계를 넘어 인과분석, 시계열 분석 등을 숨쉬듯 자연스럽게 쓸 수 있는 통계 지식, 시각화...' 등등 필요한 역량에 대한 생각은 꼬리를 물고 한없이 이어진다. 이 중 뭐 하나 ..