ADP 실기 신청을 대차게 까먹고 놓쳐버렸다... 이렇게 된 거 빅데이터 분석 기사에 올인이다 → 빅분기는 R 말고 파이썬으로 공부해볼까? → 필기 먼저 공부해야 하는데, 필기는 공부하기 싫다. → 실기를 미리 준비하자 라는 괴상한 의식의 흐름으로 인프런에 결제만 해놓고 듣지는 못한, "프로그래밍, 데이터 과학을 위한 파이썬 입문"을 듣고 있다. 파이썬은 '왼손코딩' 1회독, 점프 투 파이썬 앞부분만 3회독? 정도 한 게 다라 인강을 들으면서 기초를 차근차근 다져나가자 싶었다. 그래도 앞부분은 예전에 봤던 게 있어서 그런지, 뭔 소리인지 이해가 됐는데 역시나 loop문부터 흔들리고 있다. R도 나름 프로그램이고, 그 프로그램을 써서 혼자 보고서도 써보고, (30점이긴 하지만) ADP 실기 시험도 본 정도..
분류 전체보기
최근 1만시간의 재발견을 완독했다. 개발자 글쓰기 모임(글또) 내 독서 소모임(?)에 참여하게 되면서 알게 된 책인데, 개인적으로는 마음에 남는 것도 많고, 회사에서 상반기 개인 목표를 정하는 데 있어 도움을 받을 수 있지 않을까 하여 관련 내용을 기록으로 남겨두려고 한다. 1. 1만시간의 재법칙 요약 책에서는 체스, 테니스, 학습 등 다양한 분야에서 어떻게 하면 남들보다 탁월해질 수 있는지에 대해 이야기한다. 이걸 그대로 쓰는 게 멋있어 보이겠지만(?), 개인적으로는 다른 예시를 상상하며 읽었기 때문에 책의 예시를 완전히 벗어나서 그냥 내 식대로 요약하려 한다. 많은 사람들이 '리그 오브 레전드'라는 게임을 즐기지만, 홍대병이 있는 나는 종종 마음이 답답할 때마다 롤 대신 '히어로즈 오브 더 스톰(시공..
빅데이터 분석 기사, ADP 자격증 취득(가능할지는 모르겠지만)을 목표로 공부 중이지만, 애석하게도 애송이 실력이라 혼자 힘만으로는 코드를 짜는 게 쉽지 않다. 글을 잘 쓰고 싶은 사람들이 필사를 해보는 것처럼, Kaggle에 다른 분들이 남긴 코드(작성 방향)을 필사하는 느낌으로 데이터 분석 flow를 정리해보면 내 실력도 조금은 나아지지 않을까? 첫 시작으로 Kaggle 입문용으로 쓰는 bike demand 데이터로 연습해봤던 내용들을 정리해보려고 한다. 분석 flow를 참고하되, code는 R을 사용해서 내 식대로(정돈이 안 된...) 작성했으며, 단계마다 궁금한 부분을 찾아보고, 채워넣는 식으로 정리할 예정이다. 데이터 소개 www.kaggle.com/c/bike-sharing-demand Bik..
얼마 전 새로운 회사에서 1년을 맞이하게 되었다. 이전에도 다른 회사를 다닌 이력이 있음에도 불구하고, 이번 1년은 감회가 남달랐다. 지금 회사에 입사하기 전, 개인적인 상황이 매우 안 좋기도 했고. 데이터 언저리만 맴돈 끝에 처음으로 '데이터 분석' 업무를 시작하게 된 것도 영향도 있다. 감회가 남다른 만큼, 얼마 전에 2020년 회고글을 작성하기는 했지만 그것과는 별개로 1년 동안 내가 어떤 일을 해 왔고, 어떤 것들을 보완하고, 어떤 것들을 계속 해나가면 될 지에 대해 회고록을 작성해보고자 한다. 지난 1년동안 해 온 일 'IT컨설턴트'니, '소셜 빅데이터 리서처'니, '리서처'니 여러 형태로 이름은 바뀌었지만, 기본적으로 내가 옛날에 했던 일들은 '리서치'의 연장선이었다. 고객의 요구 사항을 파악..
통계학도로서, 회귀분석은 오아시스 같은 존재이다. 분명 많이 공부해서 닿을 듯 하면서도, 모형 진단 이후로 넘어가면 '뭘 어쩌랬더라?' 싶어서 순식간에 거리가 멀어져 버린다. 마치 '집합' 부분만 너덜거리는 수학의 정석처럼, (7차 교육과정 세대 소리질러!) 매번 처음으로 회귀하는 회귀분석을 더 이상 좌시할 수 없기에.. 자세하게 정리는 못 하더라도, 이번 기회에 간략한 키워드라고 정리해두려고 한다. 사실 지난 번에 회귀분석을 일부 정리해두었는데, 다시 소름돋게 처음으로 회귀해버린 탓도 있다. 2020/11/09 - [Statistics] - 헷갈리는 회귀분석의 기록(1) - 회귀분석의 가정 및 결정계수의 의미 회귀분석의 가정은 써 있는 책마다 조금씩 다르긴 하지만, 적어도 학부 시절에 배웠던 가정은 크..
1. 사건의 전말 통계학과를 졸업하기는 했지만, 관련 전공 지식을 별로 사용할 일은 없었다. 하여 k means clustering도 이론으로만 어렴풋이 알고 있을 뿐, 관련해서 깊게 생각해본 적도 없었다. 알음알음 전공 수업을 듣거나, ADsP나 ADP 필기 공부하면서 알고 있는 내용이라고는 - 비지도 학습의 일종이다. - 임의로 할당한 초깃값을 갖고 알고리즘을 시작, 각 레코드를 초깃값에 가장 가까운 평균을 갖는 클러스터에 레코드를 할당하는 방식으로 분류 - 이상치에 영향을 많이 받으며, 최적 군집 수를 직접 찾아줘야 한다. 이 정도였다. 그러던 중, 최근 R&D 성격의 업무를 하면서, '데이터를 군집분석을 통해 좀 세분화해서 보면 좋지 않을까?'라는 생각에 kmeans clustering을 시도했었..
2020년이 저물어간다. '경자년 새해가 밝았습니다!'하고 왁자지껄한 게 엊그제 같은데, 곧 엄숙하게 '신축년 새해'를 맞이하게 생겼다. 늘 한 해를 마무리하는 시점에는 지나온 발자취가 아쉽기 마련이지만, 올해는 유독 한 게 없이 느껴졌다. 나는 정말로 올 한 해 '사회적 거리두기'밖에 한 게 없는지, 그리고 다가오는 새해에는 어떤 목표를 이루고 싶은지에 집중해서 글을 작성해보려고 한다. 2020년 공부했던 것 - 올 초에 지금의 회사에 입사하면서, SQL 쿼리 날리는 게 급하게 늘었다. 면접을 볼 때, 시험(?)을 보고 들어갔는데, 간신히 바늘구멍 들어가듯 통과해서 그런지 입사 전까지도 SQL 공부를 당부하셔서 입사 전까지 SQL 관련 책 2권을 뗐다. 그리고 일하면서 팀장님께서 이것저것 리뷰해주신 것..
글또 활동을 하면서 시계열 공부도 좀 팍팍 나가고, 파이썬 코딩 연습도 좀 팍팍 할 수 있을 줄 알았건만 이번 주에는 영 퇴근 후에 아무 것도 할 수 없었다. 업무 특성 상 야근을 할 정도로 급한 일들은 많이 없었는데, 멘탈 관리를 잘 하지 못한 것도 있었고(사실 이게 제일 큰 이유였다.), 업무가 잘 안 풀리기도 해서 집에서도 머리를 싸매고 있느라 따로 공부할 시간을 내지는 못했다. 현재 내 주 업무는 데이터를 기반으로 회의 자료를 만드는 것이다. 당장 어떤 커리어를 쌓고 싶다는 목표는 없지만, '읽는 이로 하여금 재미 있는 보고서를 쓰고 싶다'는 것은 데이터 분석가로서 되고 싶은, 어떻게 보면 커리어 전체를 관통하는 목표이기 때문에 업무를 할 때는 늘 진심 모드에 임하려고 애쓴다. (물론 사람인지라 ..
일을 하다보면, 개발자적 사고가 필요할 때가 있다. 가령 어떤 작업을 반복적으로 해야할 때가 있는데, 함수를 썼으면 편했겠다 싶으면서도 방법을 떠올리지 못해 멍청하게 일을 할 때가 많다. 😢 틈틈이 파이썬도 써볼겸, 프로그래밍 사고도 함양할 겸 기초적인 코딩 문제를 풀었던 내용을 정리하려고 한다. 문제 - 문제 링크 : py.checkio.org/en/mission/caps-lock/ Caps Lock mission. python coding challenges - Py.CheckiO Add short description py.checkio.org 문제를 간단히 설명하자면, 손가락이 뚱뚱한 Joe는 'a'키를 누르려고 할 때 'a'키 대신 caps lock키를 누르게 된다. 단, 대문자를 입력할 때는 ..
원래는 시계열을 공부해서 정리하려고 했는데, 회귀분석이 기억이 안 나서 회귀해버리고 말았다. 분명 회귀분석의 Regression이 그 회귀가 아닐텐데, 어쩐지 통계 공부를 하려고 마음을 먹으면 회귀분석으로 돌아가게 된다. 회귀분석은 공부할 때마다 늘 새로운데.. 매번 같은 내용을 공부하면서도, 다시 몰랐던 걸 알게 되면 거기서 오는 전율이 있다. 전율도 좋기는 하지만, 이번에는 정말로 헷갈리는 부분을 정리해서, 기억의 휘발을 줄여보려고 한다. 이해가 안 가는 걸 억지로 이해력을 주입시켜서 기록하는 거라, 틀린 부분이 있을 수도 있는데 혹시 틀린 부분이 있다면 알려주시면 감사하겠습니다. 😘 1. 회귀분석의 가정 통계학 전공인 '회귀분석'과목에서 배웠던 가정과, 경제학 전공인 '계량경제학'과목에서 배웠던 가..