주간 회고를 블로그에 작성해보기로 결심했다. 일상을 그냥 저냥 흘려보내며 일만 벌이지 말고 다시 뭔가 수렴해보자 하는 일환인데, 그냥 일기장 같은 형태가 될 것 같다. 1. 신체적 작년 10월부터 그래도 매주 3~4회 꼬박꼬박 운동을 나가다가 몇 개월 전부터 운동을 제대로 못 나가고 있다. 몇 개월 전에 작은 수술을 받게 되었는데 그래도 나름 수술이어서 수술 부위에 영향이 없도록 4~6주 정도 운동을 쉬게 되었고... 그렇게 루틴이 깨져버리고, 다른 바쁜 일이 생기니까 에이 어쩔 수 없다 하면서 차일피일 조금씩 운동을 미루게 되었기 때문이다. 지금은 수술 영향은 전혀 없는데도 불구하고! 얼굴이 보름달처럼 동그래보인다고 생각해서 체중을 재보니 다시 역대급 갱신을 해버리고 말았다. 이대로는 안 되겠다 싶어 ..
분류 전체보기
제목은 거창하게 썼지만, 최근 PM을 위한 데이터 리터러시 인강(최근에는 학습률이 부진하지만... 큭)이나 현업에 계신 데이터 분석가 분들을 봬면서 느낀 점들을 기록하는 글이다. 결론부터 말하면 여전히 좋은 데이터 분석가라는 것을 정의하는 것은 어렵다. 애초에 한 두 가지의 범주로 정의 지을 수 있는 개념인지도 모르겠다. 하지만 결과가 아니라 한 단계 한 단계의 과정에 대해서는 이야기할 수 있을 것 같다. 결국 이 글은 엄밀히는 '점점 좋아지는' 데이터 분석가가 되기 위한 글이라고 볼 수 있겠다. 무작정 일을 벌이지 말고, 정리하는 시간을 반드시 갖자 PM을 위한 데이터 리터러시 인강(이하 PM인강으로 명명)에서 '발산'과 '수렴'이라는 키워드가 왕왕 나온다. 발산 = 아이디어를 자유롭게 풀어놓는 것 수..
지난번에는 매칭에 대해서 글을 썼는데, 오늘은 성향점수(Propensity Score : 이하 PS) 매칭, 역확률 가중치(Inverse Probability Weighting : 이하 ipw)에 대해 글을 써보려고 합니다. 성향점수란 무엇인가 역확률 가중치란 무엇인가 성향점수를 활용하는 매칭과 역확률가중치는 어떻게 다른가 의 이야기를 다루려고 합니다. 1. 매칭 이전 글에 다루기는 했지만 다시 간략하게 요약해보겠습니다. 매칭은 처치 집단과 통제 집단 간 공변량(Covariate)이 다를 때, 비슷한 특성을 가진 데이터끼리 짝지어 매칭시키고, 매칭된 데이터끼리 결과변수를 비교하는 개념입니다. X_1과 X_2 변수를 기준으로 각 셀마다 매칭된 데이터를 확인할 수 있고, 대조군과 처치군의 결과변수 평균 차이..
3월 목표로 했던 책을 다 읽어서, 나에게 주는 선물로 샀던 '사람을 얻는 지혜'. 잔뜩 기대했지만 생각만큼 좋은 느낌은 아니었다. 처세술에 대한 이야기도 은근히 나오는데, 개인적으로는 자기계발서에 나올법한 이야기를 보는 것이 아니라 인문학적인 내용을 보고 싶었기에 읽는 것이 조금 힘에 부쳤던 것 같다.남이 나를 의존하도록 욕구를 북돋우라. 다른 사람의 결핍을 이용하라. (p.226) 자기 바닥을 드러내지 말라. 늘 최신 기술의 기밀을 유지하라. (p.252) 호의 를 얻으면 일사천리로 일이 진행된다. (p.144) 그럼에도 불구하고 몇몇 새겨들으면 좋을만한 이야기는 있었는데,말하기 전에는 늘 시간이 있지만 말하고 나면 되돌릴 시간이 없다. 말하기 전에는 늘 시간이 있지만, 말하고 나면 되돌릴 시간이 없..
Bigquery의 특징 중 하나는 ARRAY라는 형식을 지원한다는 것이다. 몇 년 전의 나는 ARRAY라는 것이 일반 SQL에는 잘 쓰지 않기 때문에 사용할 일이 없다고 생각했었으나, 그건 천만의 말씀 만만의 콩떡이었다. 현재는 쿼리를 짤 때 굉장히 애용하고 있는 요소라 정리하는 차원에서 글을 써보려고 한다. Array는 무엇이고, 왜 쓰는가? 사실 Array가 무엇인지, 어떻게 쓰는지에 대해서는 굉장히 정리가 잘 된 글들이 많고, https://zzsza.github.io/gcp/2020/04/12/bigquery-unnest-array-struct/ BigQuery UNNEST, ARRAY, STRUCT 사용 방법 BigQuery Unnest, Array, Struct 사용 방법에 대해 작성한 글입니..
살면서 우리는 일상에서 '매칭'이라는 단어를 많이 사용합니다. 결혼정보회사에서도 등급이 비슷한 남녀를 매칭하여 소개해주고 있고, 게임에서도 비슷한 등급/점수를 가진 사람들끼리 매칭시켜서 플레이를 할 수 있게 해줍니다. 이렇게 우리는 '매칭'이라는 개념에 익숙한데, 인과추론에서 말하는 '매칭' 역시 일상적으로 사용하는 매칭과 크게 다를 것이 없습니다. 1. 매칭이란 무엇인가? 인과추론의 데이터 과학(Youtube)에서 설명을 잘 해주신 걸 가져오기는 가져오기는 했는데, 요는 성질이 비슷하지만, 처치(예. 병원 입원이 건강에 미치는 영향을 본다고 할 때, 입원 여부)에만 차이가 있는 사람들끼리 각각 '매칭'시켜 이 사람들을 비교해서 평균적으로 처치 여부에 따라 종속 변수(관심 변수)에 차이가 있는지 확인하는..
오늘은 인과추론의 핵심요소인 선택편의(Selection bias)와 교락(Confounding)에 대해 써보려고 합니다. 거창하게 두 가지를 쓰기는 했지만, 결론부터 말하면 사실 두 가지는 용어는 달라도 비슷한 내용이라고 말할 수 있습니다. 인과추론의 두 거장, 조슈아 앵그리스트(Joshua Angrist, 2021년 노벨 경제학상 수상)와 주데아 펄(Judea Pearl, 2011년 튜링상 수상)의 표현을 각각 가져온 셈이라, 두 거장(?)의 관점에서 인과추론을 어떻게 바라보는지 위주로 정리해 볼 예정입니다. 인과추론이 어려운 이유 앵그리스트의 표현을 빌리면 '사과 vs 오렌지'를 비교하는 상황에서는 인과성을 추정할 수 없기 때문에 인과추론은 어렵습니다. 이게 무슨 소리인고 하면, "고학력자의 소득이 ..
글또 5기부터 8기까지, 어느덧 4기수 째 참여 중이다. '와 진짜 너무 힘들다, 다음 기수에는 참여를 못하겠다.' 싶은 때도 있었고, '같은 채널 사람들 글 읽는 게 재밌으니 구독 느낌으로 또 참여해야지' 싶은 때도 있었다. 결국 나름의 진폭은 있었지만, 그래도 꾸준히 참여해 왔으니 새삼 스스로가 대견하게 느껴진다. 항상 글또 다짐글을 쓸 때는, 어떤 것을 공부할 것인지, 어떤 글을 쓰고 싶은지 위주로.. 그러니까 정말 글또 활동을 위한 다짐을 썼다면, 이번에는 글또 활동에 다시 참여하는 '나 자신'에 대한 마음가짐으로 다짐글을 작성해보려 한다. (그래서 딱딱한 경어보다는 친근한 평어로 작성한다.) 사실 글또 활동을 하면서 많은 능력자 분들이 작성해주신 글을 보면서, 이것도 저것도 다 좋아보여서 이것 ..
요즘 관심을 가장 관심을 갖고 공부하는 분야가 있다면 인과추론(Causal Inference)입니다. '인과 추론'이 어떤 개념인지는 정확히 몰라도, '인과성'에 대해서는 많이 들어보았을 것이라고 생각합니다. 통계학을 공부하다 보면 '상관관계'라는 개념이 나오고, 그 개념에는 마치 보험 특약처럼 이런 문구가 따라 붙습니다. 상관관계는 인과관계가 아닙니다. 상관관계가 높다고 해서 반드시 인과관계로 설명할 수는 없습니다. 네. 그렇습니다. 대학교에서 과제를 할 때마다 상관분석을 해놓고, 면피성으로 신나게 저 문구를 쓰던 저는 어느덧 사회인이 되고, 데이터 분석가가 되면서 다음과 같은 질문에 맞닥뜨리게 됩니다. 그래서 이렇게 했더니 효과가 있나요? 네. 하지만 이 질문에 대해서는 쉽게 답하기 어려웠습니다. 특..
참으로 다사다난한 2022년이었다. 2라는 숫자를 좋아하는지라 '2022년'은 막연히 행운이 가득할 것이라고 생각했는데 생각보다 빡셌다(?). 회고글을 쓰려고 작심하지 않았더라면 최근 기억(최신효과)으로만 2022년을 기억할 뻔 했다. 1. 독서 기록 사실 기록을 제대로 남긴 게 거의 독서 기록 밖에 없었다. 그렇다보니 독서가 회고글 작성 소재 1순위가 될 수 밖에 없었다는 것..! '북적북적'이라는 어플을 쓰면 읽은 책의 평점과 함께 독서 기록을 쉽게 남길 수 있다. 이 중 평점을 높게 줬던(4점 이상) 책 중 10권만 선정해 간략히 기록을 남겨 보려고 한다. 데이터는 어떻게 인생의 무기가 되는가 - 데이터를 소재로 글을 이렇게 재미있게 쓸 수 있다니... 데이터를 근거로 논리를 전개해 나가면서 유머를..