글또 활동을 하면서 시계열 공부도 좀 팍팍 나가고, 파이썬 코딩 연습도 좀 팍팍 할 수 있을 줄 알았건만
이번 주에는 영 퇴근 후에 아무 것도 할 수 없었다.
업무 특성 상 야근을 할 정도로 급한 일들은 많이 없었는데,
멘탈 관리를 잘 하지 못한 것도 있었고(사실 이게 제일 큰 이유였다.),
업무가 잘 안 풀리기도 해서 집에서도 머리를 싸매고 있느라 따로 공부할 시간을 내지는 못했다.
현재 내 주 업무는 데이터를 기반으로 회의 자료를 만드는 것이다.
당장 어떤 커리어를 쌓고 싶다는 목표는 없지만,
'읽는 이로 하여금 재미 있는 보고서를 쓰고 싶다'는 것은 데이터 분석가로서 되고 싶은, 어떻게 보면 커리어 전체를 관통하는 목표이기 때문에 업무를 할 때는 늘 진심 모드에 임하려고 애쓴다.
(물론 사람인지라 모든 시간을 풀로 진심모드가 되지는 못한다는 게 함정이지만..)
하지만, 현실의 나는 소년만화의 주인공은 아니다보니, 늘 쓰는 나만 재밌다는 게 다라는 게 문제다.
관련해서 받는 피드백이 늘 비슷한 유형이라 이번 주에는 보고서를 쓰면서 부족하다고 생각했던 점을 정리해보려고 한다.
1. 단순하게 생각하자
해당 이미지는 '디자인에 있어서 생략이 중요하다'는 하상욱 시인(?)의 강연 중 발췌한 이미지이다.
생략이 중요하다는 건, 비단 디자인에만 해당하는 문제는 아닌 것 같다.
가설을 설정하고, 이를 위해서 어떤 데이터를 보면 좋을지 탐색하는 초기 단계에서부터 머릿 속이 복잡한 경우가 많다.
'이걸 표현하려면 A, B, C, D를 다 고려해야 한다. 하지만 시기적으로 A, B, C, D가 다 동일했던 이벤트들이 없는데?'
이렇게 한바탕 부정적인 쓰나미가 쏟아지고 나면, 무슨 데이터부터 봐야할지도 모르겠고, 내가 보고 싶은 데이터를 찾는 것 자체가 불가능하다보니 다음 단계의 가설로 넘어가지 못한다.
사실 경제학을 복수전공하면서 배운 것 중 하나는
'모델은 최대한 단순할수록 좋다.'는 것인데,
결국 단순할수록 사람들이 잘 이해할 수 있기 때문에 인사이트를 찾는데 더 용이하다는 것이다.
복잡하게 생각해서,
가설을 세워야 하는 입장인 나조차도 혼란스럽게 만들바에는
처음에는 최대한 단순하게 생각하고, 데이터를 탐색하면서 가설을 정교화하는 연습을 하는 게 필요할 것 같다.
2. 대조군을 잘 설정하자.
잘 못해서, 계속 피드백 받는 부분 중 하나이다.
특정 기간 동안 A의 비율이 증가했다고 신나게 써놓고 나면,
그 이전 기간의 A의 비율과 비교했을 때는 그닥 높은 수준은 아니라 결국 데이터를 갈아엎을 때가 종종 있었다.
혹은 양 집단을 신나게 비교한 후, "B가 C보다 높아요!" 이렇게 써놓고,
알고 보니 B 집단의 특성과 C 집단의 특성이 조금씩 달라서
그 특성 차이를 어느 정도 완화시키는 작업을 하고 나면 결국 비슷한 값일 때도 많았다.
결국 값이 크다, 작다, 높다, 낮다를 판단하기 위해서는 비교 대상이 중요하다는 걸 잘 기억해두자...
3. 평균의 함정에 속지 말자.
값 하나를 뽑고 나서 끝내는 경우가 많았는데, 피드백을 듣고 유저를 조금 더 세분화해보면 유저 별로 다른 경향성이 나올때가 많았다.
유저마다 특성이 다른데, 그걸 고려하지 않고 값 하나로 퉁쳐버려서, 그 값의 의미를 잘못 해석할 때가 많았다.
앞에서는 최대한 단순하게 생각하자고 말했어서, 어떻게 보면 자가당착적으로 보이기는 하는데..
시작은 간결하되, 결국 데이터는 계속 정교하게 확인해봐야 하는 것 같다.
4. 낯설게 보자.
회의 자료를 매주 준비하다보니, 비슷비슷한 데이터를 본다고 착각할 때가 많다.
'지난 번에도 데이터가 이 정도 값이 나왔으니, 이번에도 이 정도 나오겠지?' 하고 어떤 확신을 갖고 데이터를 보니 놓치는 부분도 많았다.
회사에서 보는 데이터를 가져올 수 없으니, 정확한 예를 들 수는 없지만..
대략 자주 하는 실수에 대해서 예시를 들면..
출처 :
http://nextnews.kr/news/newsview.php?ncode=1065569773365402
- 여성 고용률 전반적으로 증가 추세
- 한국은 7개국 중 6위
- 한국은 10년 전인 2008년 대비 2018년에 경활률 약 4.6%p 증가
나는 이 정도만 문서에 기재했을 것 같은데, 따지고 보면 미심쩍은 구석도 있다.
- 10년 전에 경활률 5위였던 일본은 2018년 기준으로 3위로 급상승. 특히 2013년 기점으로 경활률 급증.
15-64 나이대에서 가장 큰 변화를 보였던 연령대는 무엇일까?
경활률 증가가 반드시 고용안정성에 긍정적인 영향을 끼친다고 볼 수 있을까? - 미국만 경활률이 감소하다가 증가하는 추세를 보임. 2008년 이후에 미국만 경활률이 낮아졌을만한 요인이 있었을까?
- 한국의 경활률 4.6%p 증가는 높은 값인가, 낮은 값인가?
다른 나라보다 여전히 낮기 때문에 부정적인 것으로 볼 수 있을까?
이런 식으로 값 자체가 어떠한 맥락에서 나오게 된 건지, 어떤 의미를 가지는지 궁금함을 가지지 않고
으레 그러겠거니 생각하는 게 굉장히 위험한 습관인데도 종종 너무 당연하게 생각할 때가 있다.
단순히 게임 도메인에 대해서 잘 알지 못해서 그랬다 라는 하기에는..
도메인에 관계 없이 데이터 자체가 담고 있는 의미, 함의를 놓칠 때가 많은 것 같아서 뜨끔뜨끔하다.
5. 독자의 입장을 고려해서 문서화를 진행하자.
시간에 쫓겨서, 혹은 혼자 내가 하고 싶은 말에 꽂혀서 문서 작업을 하다보면
이런 식으로 나만 알아볼 수 있는 혼돈의 문서를 만들 때가 있다.
피드백을 받으면서,
'아, 그래프를 이런 식으로 쓰면 나만 알아보는구나.'
'아, 글이 너무 길어지면 나만 읽는구나.'
'아, 여기서 박스로 중요한 값을 강조하지 않으면 이 값이 묻혀버리겠구나.'
독자의 입장을 놓쳐버리고 나만 신나서 작업했다는 걸 알게 된다.
계속 비슷한 부분을 피드백 받고 있는 걸 보면,
자리 잡은 나쁜 습관들을 고치는 건 참 어려운 일이 아닌가 싶다.
어디서 들은 이야기인데,
인간의 습관은 고치기 어렵기 때문에 못 고친다고 생각하는데,
고쳐야지 하는 원을 갖고 꾸준히 노력하다보면 조금씩 나아진다고 한다.
내 문서도 아직은 혼란스럽지만,
데이터 분석가로서의 내 목표를 생각하고 꾸준히 노력하다보면
조금씩 나아지겠지, 이런 희망을 가져본다.
'일상생각' 카테고리의 다른 글
1만시간의 재발견을 읽고 + 분석가로서의 성장에 대해 (0) | 2021.03.20 |
---|---|
애송이 분석가의 입사 1년 회고 (0) | 2021.02.21 |
2020년을 되돌아보며 (0) | 2020.12.24 |
백종원의 골목식당, 그리고 나 (0) | 2020.11.08 |
입사 회고 & 글또 활동다짐 (0) | 2020.11.07 |