'Statistics' 카테고리의 글 목록 (3 Page)

2022.06.21· Statistics

회귀분석을 공부하다보면 주성분분석(Principal Component Analysis, PCA)에 대한 이야기는 꼭 한 번씩 나오게 됩니다. 막연히 '주성분분석은 차원축소에 사용함', '주성분분석으로 기존 정보를 최대한 확보하는 새로운 변수를 생성함' 등의 내용을 공부하면서 보게 되는데, 오늘은 이 막연한 개념을 정리하는 시간을 가져보려고 합니다. 1. PCA 사용 목적 위에서 간략하게 썼던 것처럼 주성분분석(PCA)은 고차원의 데이터를 저차원의 데이터로 만드는데 사용합니다. 그리고 회귀분석 관점에서는 '다중공선성 문제를 완화'하는데 사용한다고 말합니다. 다중공선성은 설명변수들끼리 서로 상관성이 높을 때, 모형의 회귀계수의 표준오차를 크게 만들어서 모형에 유의한 변수를 찾기 어렵게 만드는 문제를 의미합니..

삶에 적용해 보는 인과분석

2022.06.04· Statistics

최근 인과분석을 공부하고 있습니다. 아는 게 많지 않아서 요런 Youtube(인과추론의 데이터과학)도 보고 있고, 요런 책들도 보면서 틈나는대로 공부를 하고 있는데, 공부하면서 요즘 제가 갖고 있는 고민들에 적용해볼만한 것들이 많은 것 같아 인과분석에 대한 개념 인과분석 관점으로 바라본 인생 고민 을 간략하게 기록으로 남겨보려고 합니다. 인과분석 기본개념 인과, 말 그대로 원인과 결과를 다루는 분석이라고 볼 수 있습니다. 그리고 많은 사람들이 찾고자 하는 궁극적인 목표가 아닐까 생각합니다. 마케팅 담당자는 '광고 집행이 실제 매출에 영향을 줄까?'를 알고 싶을 것이고, 정책 입안자는 '정책이 긍정적 효과가 있을까?'를 궁금해할 것이고, 저조차도 업무를 하면서 '특정 이벤트가 유저의 행동 패턴에 영향을 줄..

기초 선형대수학 개념 정리 (feat.회귀분석)

2022.05.26· Statistics

불과 얼마 전까지만 해도 regression을 가볍게 생각하고 있었습니다. R 콘솔창에 lm(data = data, y ~ X+Z) 만 입력해도 모델링 결과는 쉽게 얻을 수 있었기 때문이지요. 그러나 최근 선형대수학, 회귀분석, 인과분석을 공부하면서 '굉장히 얕은 수준만을 맛보고 안다고 착각하고 있었구나' 하고 깨닫는 순간이 있었고, 기초를 다진다는 느낌으로 관련 내용을 정리해보는 시간을 갖기로 마음먹었습니다. 그리고 이를 위한 첫번째 스텝으로 선형대수에서 꼭 알아야 하는 기초 개념 (자세한 내용은 맨 하단 참고링크를 따라가시는 것을 추천드려요! 😃) 기초 개념이 어떻게 회귀분석과 연결되는지 를 나름의 견해를 담아 정리해보았습니다. linearly independent 해당 개념은 선형대수학 책을 펼치면..

감성 시계열 - 정상성, Random-Walk, ARCH에 대한 감성적 견해

2021.12.18· Statistics

시계열 공부를 하며 이래저래 인생에 적용해봄직한 부분을 정리해 보았습니다. 수식은 최소화하고 감성은 한껏 담아 글을 써보려고 합니다. 1. Wold Decomposition & Stationary(정상성) '오늘의 나'라는 존재는 단독으로 존재할 수 없는 법입니다. 이게 무슨 해괴망측한 소리인가 하면, 어제의 나, 그제의 나, 일주일 전의 나, 몇 개월 전의 나라는 존재가 경험한 것들이 있었기에 "오늘의 내"가 존재할 수 있다는 것이지요. 그리고 내일의 나도 오늘의 나의 영향력에서 자유롭지 못할 것입니다. $$Y_{T} =\mu + \psi_{t-1}e_{t-1} + \psi_{t-2}e_{t-2}+ \psi_{t-3}e_{t-3}+\psi_{t-4}e_{t-4}+... \psi_{t-j}e_{t-j} ..

수리통계학 - EM 알고리즘

2021.09.17· Statistics

오늘은 MLE와 관련하여 작성하는 마지막 포스팅으로, EM 알고리즘에 대해 글을 써보려고 한다. EM 알고리즘을 풀어쓰면 'expectation-maximization algorithm'으로, "기대값을 최대화하는 알고리즘"으로 직역할 수 있다. 그러면 EM 알고리즘은 "어떤 기대값"을 구하고자 하는 걸까, "무엇을 최대화"하려고 하는 걸까? EM 알고리즘이란? 이에 대한 해답을 얻기 위해 EM 알고리즘을 언제 사용하는지, 잠시 짚고 넘어갈 필요가 있다. EM 알고리즘은 일부 데이터의 정보가 없는 상황에서 MLE를 얻어야 할 때 자주 사용된다. 모수에 대한 추정치를 구해야 하는 상황에서 MLE를 구하기 위한 완전한 정보가 없다. 이 때, 모수를 초기값으로 세팅해놓고 불완전한 정보까지 포함한 likelih..

수리통계학 - MLE와 MVUE에 대하여

2021.08.28· Statistics

지난번 작성했던 글에 이어 오늘도 수리통계학, 그 중에서도 MLE(maximum likelihood estimation)에 대해 작성해보려고 한다. https://blessedby-clt.tistory.com/23 수리통계학 - 추정량을 선택하는 기준에 대하여 누군가 통계학이란 어떤 학문이냐고 묻는다면, 나는 "미지의 모수를 추정하는 학문"이라고 답할 것이다. '추정'이라는 것은 정확하지는 않지만 어슴프레하게나마 어떤 값을 맞춰보겠다는 것이 blessedby-clt.tistory.com MLE란 무엇인가 지난번 작성했던 글에서, likelihood는 X1, ..., Xn이 발생했고, 발생한 사실로 비추어볼때 어떤 모수가 도출될 가능성(likelihood)에 대한 것이다. 라고 간략하게 언급했는데, 조금은..

수리통계학 - 추정량을 선택하는 기준에 대하여

2021.08.10· Statistics

누군가 통계학이란 어떤 학문이냐고 묻는다면, 나는 "미지의 모수를 추정하는 학문"이라고 답할 것이다. '추정'이라는 것은 정확하지는 않지만 어슴프레하게나마 어떤 값을 맞춰보겠다는 것이고, 그것은 필연적으로 오차를 수반하게 된다. 결국 정확한 값을 맞힐 수 없음에도 불구하고 통계학을 사용하는 건, 대충 어느 정도까지 틀릴 수 있을 것인지에 대한 각을 봐서 "그나마" 좋은 추정치를 찾아가려고 하는 노력 때문이지 않을까 싶다. 수리통계학에서 다루는 것도 우리는 어떤 값을 이용해서 미지의 모수를 찾아나설 것인지, 이 중 어떤 추정량이 좋은 추정량(better estimator)인지? (추정) 미지의 모수를 추정한 값이 맞다, 그르다를 판단하고 싶을 때 우리는 어떤 기준을 세울 것인지(검정) 에 대한 부분이다. ..

시계열 분석 - ARIMA 모형 정리

2021.04.17· Statistics

시계열의 정상성 일반적으로 시계열에서 '정상성(Stationary)'은 굉장히 중요한 의미를 갖는다. 사실 시계열을 급하게 공부해서, 정확하고 또 적확하게 개념을 이해하고 사용한 것은 아니지만, 기계적으로 시계열 데이터를 다뤘던 대부분의 경우, 시계열 데이터가 정상성을 따르는지 확인하고, 정상성을 따르지 않는다면 차분 or 변환을 통해 정상성을 만족하는 형태로 바꾸어가며, ARIMA 모델을 만들어 나갔다. 정상성(Stationary)에 대해 간략하게 정리하면, 데이터 간의 자기 상관이 없는 경우를 의미한다. 즉, 특정 시점과 h 시점 이후의 시점의 데이터는 시차(lag)에만 영향을 받고, t 와 t+h 라는 시점 자체에는 영향을 받지 않는 것을 의미한다. 이러한 정상성을 띄는 대표적인 경우가 '백색잡음(..

헷갈리는 회귀분석의 기록(2) - 회귀분석 모형 진단

2021.02.07· Statistics

통계학도로서, 회귀분석은 오아시스 같은 존재이다. 분명 많이 공부해서 닿을 듯 하면서도, 모형 진단 이후로 넘어가면 '뭘 어쩌랬더라?' 싶어서 순식간에 거리가 멀어져 버린다. 마치 '집합' 부분만 너덜거리는 수학의 정석처럼, (7차 교육과정 세대 소리질러!) 매번 처음으로 회귀하는 회귀분석을 더 이상 좌시할 수 없기에.. 자세하게 정리는 못 하더라도, 이번 기회에 간략한 키워드라고 정리해두려고 한다. 사실 지난 번에 회귀분석을 일부 정리해두었는데, 다시 소름돋게 처음으로 회귀해버린 탓도 있다. 2020/11/09 - [Statistics] - 헷갈리는 회귀분석의 기록(1) - 회귀분석의 가정 및 결정계수의 의미 회귀분석의 가정은 써 있는 책마다 조금씩 다르긴 하지만, 적어도 학부 시절에 배웠던 가정은 크..

k means clustering에 대한 고찰

2021.01.09· Statistics

1. 사건의 전말 통계학과를 졸업하기는 했지만, 관련 전공 지식을 별로 사용할 일은 없었다. 하여 k means clustering도 이론으로만 어렴풋이 알고 있을 뿐, 관련해서 깊게 생각해본 적도 없었다. 알음알음 전공 수업을 듣거나, ADsP나 ADP 필기 공부하면서 알고 있는 내용이라고는 - 비지도 학습의 일종이다. - 임의로 할당한 초깃값을 갖고 알고리즘을 시작, 각 레코드를 초깃값에 가장 가까운 평균을 갖는 클러스터에 레코드를 할당하는 방식으로 분류 - 이상치에 영향을 많이 받으며, 최적 군집 수를 직접 찾아줘야 한다. 이 정도였다. 그러던 중, 최근 R&D 성격의 업무를 하면서, '데이터를 군집분석을 통해 좀 세분화해서 보면 좋지 않을까?'라는 생각에 kmeans clustering을 시도했었..

티스토리툴바