들어가며 데이터 분석가로 업무를 하다 보면 슬슬 쿼리의 정확도(쿼리를 통해 원하는 데이터를 정확하게 추출하였는가) 이외에 쿼리 최적화에 대해 관심을 갖게 된다. 자칫 잘못하면 매우 큰 비용의 쿼리를 사용하게 되거나(omg...), 작성한 쿼리가 한참 돌면서 매우 많은 슬롯을 사용하게 되는 문제가 발생하기 때문이다.큰 비용의 쿼리를 사용한다 = 물리적으로 돈이 들어감많은 슬롯을 사용한다 = 가상의 빅쿼리 CPU를 많이 사용. 특정 상황이 아니면 물리적으로 비용이 발생하지 않지만 슬롯 관리를 못할 경우 쿼리 속도가 매우 느려지고, 다른 사람의 자원을 잡아먹게 될 수도 있어 문제가 발생할 수 있음.이런 문제를 일으키면 금쪽이 데이터 분석가가 될 수 있기 때문에 쿼리 최적화와 관련하여 노력했던 부분을 간략히 소..
Bigquery의 특징 중 하나는 ARRAY라는 형식을 지원한다는 것이다. 몇 년 전의 나는 ARRAY라는 것이 일반 SQL에는 잘 쓰지 않기 때문에 사용할 일이 없다고 생각했었으나, 그건 천만의 말씀 만만의 콩떡이었다. 현재는 쿼리를 짤 때 굉장히 애용하고 있는 요소라 정리하는 차원에서 글을 써보려고 한다. Array는 무엇이고, 왜 쓰는가? 사실 Array가 무엇인지, 어떻게 쓰는지에 대해서는 굉장히 정리가 잘 된 글들이 많고, https://zzsza.github.io/gcp/2020/04/12/bigquery-unnest-array-struct/ BigQuery UNNEST, ARRAY, STRUCT 사용 방법 BigQuery Unnest, Array, Struct 사용 방법에 대해 작성한 글입니..
R 원툴이라 ggplot2 패키지를 사용할 일이 많은데도 불구하고, 매번 비슷비슷한 걸로 헷갈려서 한 번 정리 해보는 시간을 가져보기로 했다. 패키지 사용법을 정리하기 전에, 먼저 간단하게 준비물을 설명하자면 아래와 같다. library(tidyverse) ## ggplot2 패키지가 내장되어 있음. library(gridExtra) ## 여러 그래프를 한 번에 보여줄 때 사용함. library(ggrepel) ## 레이블을 겹치지 않게 보여줄 때 사용함 library(GGally) ## 여러 변수 간 산점도를 보여줄 때 사용함. 이 중에서 사실 tidyverse 패키지만 있어도 그래프 작성에 큰 문제는 없다. 1. ggplot2 패키지 개요 분석이나 프로그래밍에 조예가 깊은 사람이라면 ggplot2 패..
빅데이터 분석 기사, ADP 자격증 취득(가능할지는 모르겠지만)을 목표로 공부 중이지만, 애석하게도 애송이 실력이라 혼자 힘만으로는 코드를 짜는 게 쉽지 않다. 글을 잘 쓰고 싶은 사람들이 필사를 해보는 것처럼, Kaggle에 다른 분들이 남긴 코드(작성 방향)을 필사하는 느낌으로 데이터 분석 flow를 정리해보면 내 실력도 조금은 나아지지 않을까? 첫 시작으로 Kaggle 입문용으로 쓰는 bike demand 데이터로 연습해봤던 내용들을 정리해보려고 한다. 분석 flow를 참고하되, code는 R을 사용해서 내 식대로(정돈이 안 된...) 작성했으며, 단계마다 궁금한 부분을 찾아보고, 채워넣는 식으로 정리할 예정이다. 데이터 소개 www.kaggle.com/c/bike-sharing-demand Bik..
일을 하다보면, 개발자적 사고가 필요할 때가 있다. 가령 어떤 작업을 반복적으로 해야할 때가 있는데, 함수를 썼으면 편했겠다 싶으면서도 방법을 떠올리지 못해 멍청하게 일을 할 때가 많다. 😢 틈틈이 파이썬도 써볼겸, 프로그래밍 사고도 함양할 겸 기초적인 코딩 문제를 풀었던 내용을 정리하려고 한다. 문제 - 문제 링크 : py.checkio.org/en/mission/caps-lock/ Caps Lock mission. python coding challenges - Py.CheckiO Add short description py.checkio.org 문제를 간단히 설명하자면, 손가락이 뚱뚱한 Joe는 'a'키를 누르려고 할 때 'a'키 대신 caps lock키를 누르게 된다. 단, 대문자를 입력할 때는 ..