들어가며
길드 콘텐츠는 게임에서 흔히 볼 수 있는 요소 중 하나이다. 특히 국내 온라인 게임에는 길드 콘텐츠가 거의 필수로 들어있는데 유저 간 협동, 경쟁이 두드러지게 드러나는 MMORPG 게임에는 기본이고, 싱글 플레이에 가까운 게임에서도 길드 콘텐츠가 포함된 경우가 많다.
길드(혈맹) 위주로 콘텐츠가 돌아가는 리니지는 물론이고, 길드원 캐릭터를 빌려오는 것 외에는 유저끼리 직접 매칭되지 않는 게임(Ex. 블루 아카이브, 가디언테일즈 등)에서도 길드 시스템을 제공하고 있다.
길드 콘텐츠를 통해 유저는 길드 구성원 간 네트워크를 맺으며 재미를 느낄 수 있다. 또한, 길드 간 경쟁 시스템을 통해 길드원끼리 결속하고 뭉치면서 끈끈해지는 재미도 느낄 수 있을 것이다. 그리고 길드원 간 네트워크를 유지하기 위해 유저가 쉽게 게임을 접지 못하도록 만들어 주기도 한다.
반면, 싱글 플레이에 가까운 게임성을 제공하더라도 길드에 가입한 유저는 길드 내 스펙이 높은 유저를 보면서 "와 나도 저렇게 강해지고 싶다"라고 동기 부여를 받을 수 있다. 또, 길드 콘텐츠를 통해 유저는 누군가와 같이 게임을 한다는 느낌을 받을 수 있다. 혼자 공부를 하는 것보다 누군가와 같이 모각공을 할 때 동기부여가 잘 되는 것처럼 유저끼리 직접 만나서 매칭되는 시스템이 없더라도, 아니 오히려 그렇기 때문에 누군가와 같이 게임을 한다는 느낌은 유저로 하여금 게임을 더 집중하게 만드는 요소로 작용할 수 있는 것이다.
그렇다면 길드 콘텐츠의 존재는 정말로 유저를 게임에 더 몰입하도록 만들 수 있는 것일까? 좀 더 수치적으로 말하면 길드 콘텐츠는 유저의 잔존율이나 플레이 시간과 같은 지표를 높이도록 기여할 수 있을까?
"길드가 잔존율에 영향을 주는가?"
이 질문에 답하는 것은 굉장히 어렵다.
만일 단순하게 길드에 가입한 유저와 미가입한 유저의 플레이시간 또는 잔존율을 비교한다고 해보자. 만일 길드 가입자의 평균 플레이 시간이 더 많다고 하더라도, 이것을 "길드는 유저의 잔존율을 높이는 데 도움이 돼!" 라고 말할 수 있을까? 만일 분석가가 아니더라도, 본능적으로 "어? 이 방법으로 하면 안 될 것 같은데?"라고 느낄 것이다.
왜 본능적으로 이러한 접근 방식에는 거부감이 들까? 왜냐하면 직감적으로 우리는 "게임을 열심히 하는 사람이 길드 콘텐츠를 이용할 가능성이 높다"라고 인식하고 있기 때문이다. 사실은 게임 플레이를 열심히 하기 때문에 길드 콘텐츠를 이용할 가능성이 높은데, 이걸 역으로 자신의 입맛대로 해석할 여지가 있다. (역인과)
또한, 기본적으로 길드에 가입하는 유저는 미가입자보다 게임에 관심이 많을 가능성이 높다. 게임에 관심이 많기 때문에 이런 저런 콘텐츠를 다 즐겨보고, 그러면서 길드도 참여하게 되고, 플레이시간도 자연스럽게 늘어날 가능성이 있다. 길드 가입과 잔존율에 모두 영향을 미치는 공통의 요소가 있다면, 길드와 플레이시간 간에 인과관계가 없이도 상관관계가 생길 수 있다. (Confounder의 존재 ; 교란 편향)
이렇듯 길드 가입자와 미가입자의 지표를 단순 비교하는 것은 선택 편향의 문제가 발생할 수 있으므로 바람직하지 않다.
길드 콘텐츠가 잔존율/플레이시간에 미치는 인과성을 파악하기 위한 가장 바람직한 방법은 RCT(Randomized Controlled Treatment)를 적용하는 것이다. 즉, A/B 테스트를 돌려보는 것이다. 랜덤으로 어떤 유저는 A(길드 콘텐츠 가입)에, 어떤 유저는 B(길드 콘텐츠 미가입)에 배정해서 A집단과 B집단의 '잔존율, 플레이시간'의 차이가 있는지 비교해볼 수 있다. 그렇지만 일부 유저에게만 길드 콘텐츠를 제공하고, 나머지 유저에게는 길드 콘텐츠를 제공하지 않는다면 너무나도 불공평하다는 느낌이 든다.
그래서 인게임 내에서 A/B 테스트를 시행하는 것은 굉장히 어려운 일이다. RCT를 사용하지 못한다는 제약이 걸린다면, 다시 말해 게임 유저 모두가 길드 콘텐츠에 접근 가능하고 가입할 수 있는 상황이 되어 실험군과 통제군을 찾기 어려운 상황이라면 분석의 난이도는 높아지게 된다. 그래서 길드 콘텐츠가 유저에게 긍정적인 영향을 미칠 수 있는지 파악하는 것은 굉장히 어렵다. 어쩌면 분석 자체가 불가능할 수도 있다.
그렇지만 어떤 식으로 분석을 시도해볼 수 있을지, 분석에 장애 요소로 작용되는 부분이 있을지, 분석을 하기 위해서는 어떤 것들을 고려해야 하는지 등을 사고실험 정도는 해볼 수 있지 않을까?
1. 성향점수를 활용한 매칭
성향점수는 여러 공변량의 특징을 하나로 압축한 값이라고 간단히 표현할 수 있다. 즉, 우리는 길드 가입에 영향을 미치는 여러 변수를 바탕으로 길드 가입 가능성을 계산할 수 있다. (길드 가입 가능성 = 성향 점수)
그리고 길드 가입 확률이 비슷한 유저들끼리 짝을 지어놓고, 길드 가입 확률이 비슷하지만 실제로 길드를 가입한 유저와 가입하지 않은 유저의 잔존율을 비교하는 것이 성향 점수를 활용한 매칭 개념이다.
이를 위해서는 성향 점수를 구할 때 길드 가입에 영향을 미칠 만한 변수를 미리 정의해놓아야 하는데 이 때 DAG(Directed Acyclic Graph, 방향성이 있는 비순환 그래프)를 그려서 변수 간 관계를 파악해두는 것이 도움이 된다.
앞서 말했던 것처럼 아마도 게임에 대한 열정이 많은 유저가 길드에 가입할 가능성이 높을 것이다. 다만 앞에서는 '게임에 대한 열정'이라는 추상적인 표현을 사용했는데 이걸 수치화할 수 있도록 변수를 본격적으로 정의해야 한다.
길드 가입 시점이 게임 퍼널 상 초반 구간이라고 가정할 경우, 가입 후 N일차 과금액 / N일차 플레이 시간 / N일차 콘텐츠 진행 속도(초반 N일 만에 메인 퀘스트 몇 단계를 진행하고 있는지...) 등을 게임에 대한 열정을 확인할 수 있는 변수로 사용할 수 있을 것이다.
이러한 변수들을 기반으로 길드 가입 가능성을 구하고(일반적으로 Logistic Regression을 이용한다고 한다.), 성향 점수가 비슷한 유저들끼리 매칭한 상태에서 평균 잔존율의 차이가 있는지 확인하는 것이 성향 점수를 통해 인과관계를 파악하는 방법이다.
그렇지만 위 방법론을 무작정 적용하는 것에는 한계가 있다.
먼저, 성향점수를 구하기 위한 공변량(위의 예시에서는 과금액, 플레이시간 등)을 뾰족하게 잘 정의해야 한다. 위의 예시에서 활용한 변수는 대부분 앱 서비스에서 사용하는 활성 유저의 개념을 그대로 본떠 가져온 것이다. 일반적인 앱 서비스에서 서비스 가입 이후 콘텐츠를 자주 둘러보거나, 이용 시간이 많거나, 결제 퍼널까지 이어지는 유저를 활성 유저라고 보는 개념을 게임에 그대로 적용한 것에 불과하다. 즉, 현재 "게임에 대한 열정"으로 정의한 변수가 뾰족하지는 않다는 뜻이다.
활성 유저를 정의하기 위한 변수로 게임 산업 내지는 우리 게임에만 특수하게 적용될 수 있는 것이 있다면, 일반적인 변수만 넣어서 구한 길드 가입 가능성(성향점수)은 결함이 있게 된다. 즉, 도메인에 대한 지식을 바탕으로 길드 가입에 영향을 미칠 만한 변수를 최대한 모아야 하는데 이게 쉽지는 않은 일이다.
성향점수 자체에 대한 맹점도 있다. 성향 점수가 비슷한 수준으로 높은 유저 두 명이 있다고 해보자. A 유저는 플레이시간이 많지는 않지만 과금액이 많아서, B 유저는 과금액이 많지는 않지만 플레이 시간이 많아서 길드 가입 가능성이 높아질 수 있다. 똑같이 성향점수가 높더라도 과금액이 많은 유저와 플레이 시간이 많았던 유저를 같은 선상에 놓고 비교하기에는 어쩐지 찝찝하다. 이렇듯 다차원의 변수를 하나로 압축하는 과정에서 해석에 어려움이 생길 수 있다.
요약하면,
- 길드 가입 가능성이 비슷한 유저들끼리 매칭하여 길드 가입 효과를 분석한다.
- 길드 가입 가능성을 구하기 위한 공변량을 제대로 리스트업하지 못한다면 분석에 한계가 있다.
- 성향점수는 여러 변수를 요약한 값이기 때문에 성향점수가 비슷한 유저가 비슷한 유저군이라고 장담하기 어렵다.
2. DID / Synthetic Control (가상의 통제집단)
이번에는 길드 시스템이 오픈 시점이 아니라 출시 이후 특정 시기에 업데이트가 되었다고 해보자. 만약 테스트 서버를 따로 두는 게임이라고 하면, 테스트 서버에 길드 시스템을 먼저 도입시킨 이후 상황을 보고 본 서버에 도입할 수도 있을 것이다. 그러면 테스트 서버(길드 시스템 도입)와 본 서버(아직 길드 시스템 미도입)의 유저 잔존율을 비교해서 길드가 잔존율에 미치는 영향을 파악할 수도 있지 않을까?
만일 그렇다면 DID (Difference-In-Difference) 분석을 고려해 볼 수도 있다.
- DID는 처치 이전 / 이후가 구분 되고
- 처치를 받은 집단과 처치를 받지 않은 집단이 구분되는 경우 사용할 수 있는 방법이다.
- 단, 처치집단과 통제집단의 지표추세가 평행해야 한다(parallel trend assumption, 평행 추세 가정)는 가정이 필요하다.
한 번 처치를 받고나면, 그 이후에는 "처치를 받지 않았더라면"에 해당하는 상태를 알 수 없게 된다. 즉, 처치변수의 잠재적 결과(Potential Outcome)을 파악할 수 없다는 뜻이다. (낙장불입..)
이 때, 통제집단을 바탕으로 반사실(처치집단이 처치를 받지 않았더라면 어땠을까?)을 만들고, 처치변수와 비교하여 인과 효과를 파악할 수 있다. 조금 말이 어렵긴 한데, 그림으로 표현하면 다음과 같다.
길드 콘텐츠를 업데이트하기 이전(=처치 이전), 본 서버와 테스트 서버의 잔존율의 추세가 비슷(평행 추세)하다면, 테스트 서버에 실제 길드 콘텐츠를 업데이트 하지 않았을 때의 흐름을 대략적으로 예측할 수 있다. 아마도 본 서버의 잔존율의 추세와 비슷하게 흘러갈 것이다.
그리고 우리는 실제 테스트 서버에 길드 콘텐츠가 업데이트 되었을 때의 잔존율 정보를 갖고 있으므로 본서버의 흐름을 보고 추측한, 평행 세계의 잔존율(길드 콘텐츠가 업데이트 되지 않았으면 어땠을까?)과 실제 잔존율(길드 콘텐츠를 업데이트 한 이후의 값)을 비교하여 인과 효과를 파악할 수 있다.
하지만 이 방법도 실제 사용하기 어려운데, 테스트 서버와 본 서버의 지표를 비교하는 것은 평행 추세 가정을 만족하지 않을 가능성이 크기 때문이다. 아마도 테스트 서버에서 플레이하는 유저는 잠깐 맛보기로 게임을 즐기는 유저가 많을 것이다. 그러면 애초부터 테스트 서버의 잔존율은 본 서버와 다른 패턴을 보일 수 있기 때문에 위에서 말한 방법은 그다지 좋은 접근이 아니게 될 수 있다.
그 다음에 고려해볼 수 있는 것은 Synthetic Control (가상의 통제집단)이라는 분석 방법론이다. 가상의 통제집단은 말 그대로 실제로 존재하지 않는 통제 집단을 가상으로 만들어낸다는 개념이다.
만약 비슷한 장르의 길드 시스템이 도입되지 않은 타 사 게임의 잔존율 정보를 알 수 있다고 해보자. (이것부터 실제로는 빡센 가정이지만..) 그러면 타 사 게임의 잔존율 정보를 적절하게 조합해서 길드 시스템을 도입한 처치 집단의 가상의 반사실(Counterfact)를 만들어낼 수 있다.
다른 게임의 잔존율 흐름을 적절하게 조합하여 기존 게임의 잔존율과 비슷하도록 만들고, 잔존율의 가중치가 처치 이후에도 비슷하게 작용한다고 가정하여 가상의 통제집단을 만들어낸다. 그리고 실제 길드 시스템이 도입된 이후에 잔존율과 가상의 통제집단의 잔존율을 비교하고, 만일 잔존율의 차이가 벌어진다면 이것을 인과효과로 해석할 수 있는 것이다.
그렇지만 이 역시도 한계가 존재하는데... 가령 가상의 통제집단을 통해 분석 결과를 냈다고 해보자.
나 : Synthetic Control을 사용해서 길드 콘텐츠가 잔존율을 약 10%p 높인다는 결과를 얻을 수 있었습니다. 참고로 A 게임에 가중치 20%, B 게임에 가중치 10%, C 게임에 가중치 30%를 줘서 만든 가상의 통제집단과 실제 우리 게임의 잔존율을 비교한 결과입니다.
유관부서 : A 게임에 가중치를 20% 주는 게 믿을 만한 결과가 맞나요..? 왜 A 게임에 가중치를 20%로 주신 거에요?
나 : ......
가상의 통제집단은 말 그래도 가상으로 만들어 낸 결과이기 때문에 실제로 내가 가상의 통제집단을 제대로 만들어냈는가에 대한 신뢰성을 검증하기 어렵다. 또한, 설명을 듣는 사람에게 이 기법이 믿을 만한 것인지에 대해 설명하기에 까다롭다는 문제가 있다.
또한, 우리 게임에서 길드 콘텐츠를 도입하더라도 타사 게임은 이를 신경쓰지 않아야 한다. 즉, SUTVA(Stable Unit Treatment Value Assumption ; 실험 대상자의 Treatment(처치) 할당이 특정 대상자의 잠재적 결과에 영향을 주지 않아야 한다는 개념)를 만족해야 하는데, 실제로는 '어떤 게임이 길드 콘텐츠를 도입했다더라' 했을 때 경쟁사에서 신경을 안 쓰리라는 보장이 없다. 즉, SUTVA 가정 역시 위배될 가능성이 있다.
- DID : 평행 추세 가정을 만족해야 하는데, 이러한 조건을 만족시키기 어렵다.
- 가상의 통제집단 : 신뢰성 검증이 어렵고 이를 납득시키기 위한 과정 역시 어려울 수 있다.
3. 도구변수 (Instrumental Variable)
마지막으로 "길드 추천 시스템"에 대한 케이스를 생각해 보자. 일반적으로 길드 콘텐츠가 있는 경우에는 길드 미가입자에게 길드 추천을 해주는 시스템이 들어가 있다.
어떤 게임은 길드를 가입하는 것 자체가 퀘스트인 경우도 있기 때문에 특정 퍼널을 지나간 유저라면 한 번쯤은 길드를 가입해 본 상태가 될 수 있다. (물론 퀘스트만 깨고 바로 탈퇴할 가능성도 있지만..)
길드 가입 / 미가입을 따지던 기존의 예시와 다르게 이번에는 활동성 좋은 길드가 유저가 더 오래 잔존하도록 만드는지 영향력을 확인해 본다고 가정하자.
길드 미가입자에게 추천해주는 길드는 활동 인원이 많은 길드일 수도 있고, 유령길드일 수도 있다. 만일 유저에게 길드를 추천해줄 때 뭔가 알고리즘이 들어간 것이 아니라 단순히 랜덤으로 추천해준다면 활동성이 좋은 경우를 추천받는 경우는 당연히 랜덤으로 정해지게 된다.
이 때,
- 활동성이 좋은 길드에 가입한다 = 처치(Treatment)
- 활동성이 좋은 길드를 추천 받는다 = 처치 할당(Treatment Assignment)로 해석할 수 있게 되고,
- 활동성이 좋은 길드를 추천 받는 것은 랜덤으로 정해지므로 이를 도구변수(Instrumental Variable)로 해석하여 볼 수도 있을 것이다.
도구변수에 대해 간략히 설명하면 처치 변수가 갖고 있는 내생성(endogenous)을 도려내면서도 처치 변수와 비슷한 역할을 해주는 변수를 의미한다.
"활동성이 좋은 길드에 가입하는 유저는 잔존율이 더 높을 것이다" 라는 가설을 검증한다고 할 때, 이미 활동성이 좋은 길드에 가입하려고 하는 유저는 게임에 대한 열정이 높고, 또 게임에 대한 열정이 높은 유저는 잔존율도 높기 때문에 위 가설을 검증하기 어렵다고 했었다.
처치 변수와 결과 변수가 이미 공통적으로 같은 요소에 영향을 받고 있고, 이는 내생성 문제가 발생했다는 것을 의미한다.
이 때 "활동성 좋은 길드를 랜덤으로 추천 받음"이라는 변수를 분석에 고려한다고 해보자. 활동성 좋은 길드를 추천받은 유저가 활동성 좋은 길드에 가입하게 될 가능성은 높아지지만, 활동성 좋은 길드가 추천되는 것은 랜덤이기 때문에 이것이 직접적으로 내가 더 오래 잔존하도록 만드는데 영향을 미치지는 못한다.
이렇게 결과 변수와 내생성을 갖고 있지 않으면서 처치 변수와 연관이 있는 변수를 도구변수라 하고, 도구변수를 활용하여 인과 분석을 할 수 있게 된다.
분석에 고려해야 하는 개념이 하나 더 있는데 이것은 바로 LATE(Local Average Treatment Effect) 개념이다. 간단히 설명하면 인과 추론의 효과를 특정 집단에 한정하여 본다는 것을 의미한다. 그리고 이 특정 집단은 Complier(순응자)라고 불리우는 집단에 한정한다.
길드에 가입하는 상황을 기준으로 예시를 들어보자. 길드 미가입 상태일 때, 어떤 유저는 처음에 나에게 추천해준 길드대로 그냥저냥 맞춰서 가입할 수도 있다. 반면, 어떤 유저는 활동성이 낮은 길드를 추천받아도 어떻게든 좋은 길드를 찾기 위해 새로고침을 시도하여 원하는 바를 성취할 수도 있다.
이를 그림으로 그리면 다음과 같다.
활동성 좋은 길드에 가입한 유저를 처치집단으로, 유령 길드에 가입한 경우를 통제집단으로 놓을 수 있으며, 최초 랜덤으로 활동성 좋은 길드를 추천 받는 경우를 처치 할당(Treatment Assignment)로 놓을 수 있다.
단, LATE를 사용하기 위해서는 Defier(반항자)가 없다는 전제가 필요하다. 즉, 어떤 길드를 추천 받든 새로고침만 누르는 이상한 유저(Defier ; 어떤 Assignment를 받든 다 반대로 움직이는 유저)가 없어야 한다는 것이다. 다행히 새로고침 홀릭 유저가 있다고는 쉬이 상상하기 어렵다.
유령 길드만 찾아다니는 유령 길드 헌터(Never Taker ; 어떤 Assignment를 받든 항상 처치를 받지 않는 유저)의 존재도 상상하기 어렵다. 이 유저가 있어도 LATE 분석을 쓰는데에는 지장이 없지만, 상식적으로 유령길드 헌터 유저가 있다고 보기에는 어려우므로 위 그림을 다시 그릴 수 있다.
그러면 어떤 길드를 추천 받든, 어떻게든 활동성 좋은 길드를 찾아가는 유저(Always Taker)와 대충 추천해주는 대로 길드에 바로바로 가입하는 유저(Complier)만 남게 된다.
어차피 유저는 Complier와 Always Taker로만 구성되므로, 유령길드 추천 시 바로 가입한 유저와 유령길드 추천 시 새로고침을 누른 유저의 비율을 기준으로 Complier와 Always Taker의 구성비를 구할 수 있다. 또 각 Matrix 별로 N일 후 잔존율을 구할 수 있다고 할 때, Complier만 대상으로 하여 유령길드 / 활동길드 가입 유저의 잔존율을 비교할 수 있다.
활동길드에 가입한 Complier의 잔존율을 간단한 방정식을 통해 구할 수 있고(65%), 유령길드에 가입한 Complier의 잔존율(50%)도 알고 있으므로 우리는 활동 길드의 잔존율 증가 효과를 구할 수 있다. 활동 길드에 가입한 순응자의 잔존율이 그렇지 않은 순응자의 잔존율보다 15%p 더 높으므로 활동성 높은 길드는 유저를 더 오래 잔존시키는데 도움을 준다고 해석할 수 있다.
하지만 이 역시도 맹점이 있다.
먼저, 유저에게 어떤 추천 길드를 보여줄 것인가에 대한 정보까지 로그를 남기지 않을 가능성이 크다. 길드 추천 새로고침 정보를 매번 로그로 저장한다고 하면 로그의 양이 너무 많아질 수 있기 때문이다. 또, 실제 추천 받은 길드에 가입했는지 매칭이 어려울 수도 있다. 그래도 여기까지는 노력하면 해결이 가능할 수 있는 부분이므로 그냥 저냥 넘어가본다고 치자.
두 번째는 더더욱 해결이 골치아파지는 이유인데, 오히려 열심히 하는 유저일수록 길드 추천 시스템을 이용하지 않고 길드 홍보 게시판을 보고 잘 하는 길드를 찾아서 가입하게 되는 가능성이 크다는 것이다. 즉, 게임에 몰입할 가능성이 높은 유저에게 활동성 높은 길드를 추천해줘도 새로고침을 눌러버리거나, 다른 액션을 하게 될 수 있다는 것이다.
앞서 새로고침 홀릭 유저가 없다는 가정을 쓰기는 했지만, 실제로는 길드 홍보 게시판을 적극 활용하는 유저에게 활동길드를 추천해주든, 유령길드를 추천해주든 이들은 자신의 길을 가기 위해 새로고침을 누르게 될 수도 있다. 그러면 이들은 Defier(어떤 길드를 추천해줘도 새로고침을 누름)가 되어버려서 위와 같은 분석 FrameWork를 사용하지 못하게 되어버린다. 애초에 LATE는 defier(청개구리 유저)가 없다는 전제 하에서 쓸 수 있는 분석이기 때문이다.
- LATE는 청개구리(Defier로) 유저가 없을 때만 쓸 수 있지만 실제로는 이런 유저의 존재가 없다고 단언할 수 없다.
여태까지 분석 아이디어를 쭉 냈지만, 결국 다 써먹지 못할 것이다라는 결론만 나버렸다.
이렇듯 인과추론을 현업에서 잘 써먹기는 어려운 일이다. 직접 실험을 하지 않는 이상 여러 제약이 많이 걸리기 때문이다. 그러면 여태 머리만 지끈지끈하는, 헛된 고민을 한 것일까?
그럼에도 불구하고, 이러한 고민이 의미가 없는 것은 아니라고 생각한다. 인과추론을 잘 하기 위한 기본 전제는 "도메인 지식"이라고 생각한다. 다시 말하면 인과 추론은 "도메인 지식"이 있어야 진정으로 완성된다고 생각한다. 도메인 지식이 없으면 애초에 뾰족하게 분석 설계를 하는 것이 불가능하기 때문이다. 원하는 인과추론 분석을 바로 뾰족하게 하지는 못하더라도 인과추론을 잘 하기 위해 고민하는 과정에서 쌓아가는 도메인 지식은 분명 나중에 빛을 발할 수 있을 거라고 믿는다.
또한, 어떤 것이 부족해서 분석을 못했을까를 회고하고, 고민해놓으면 나중에 기회가 왔을 때 필요한 것을 요청하게 될 수도 있을 것이라 믿는다.
또한, 인과추론 분석 방법론보다 더 선행이 되어야 하는 것은, "인과추론으로 도출하려는 분석 결과를 어떻게 써먹을 수 있을까" 하고 고민하는 과정일 수도 있겠다는 생각이 든다. 분석의 힘을 모두 끌어모아 길드 콘텐츠가 유저의 잔존율을 15%p 높였다는 결과를 냈더라도, "So what?"에 대답할 수 없다면 분석의 가치를 알아봐주는 사람의 수는 적어지기 때문이다.
길드 콘텐츠의 어떤 점이 유저의 잔존율을 높이는 결과를 만들어냈을지, 그래서 우리는 향후에 유저의 잔존율을 높이기 위해 어떤 것들을 더 고려해 볼 수 있을지 액션 아이템을 고민하는 것 역시 분석에 필수불가결한 요소라 생각한다.
분석 방법론에 대한 지식도 중요하지만, 도메인 지식과 액션 아이템에 대한 고민이 곁들여질 때 더 멋진 분석을 할 수 있지 않을까에 대한 고찰로 글을 마무리해본다.
참고자료
- DID(이중차분법) - 인과추론의 데이터 과학 Youtube
https://www.youtube.com/watch?v=yCeaZ9Ktk7g&t=117s
- 가상의 통제집단 (Synthetic Control) - 인과추론의 데이터 과학 Youtube
https://www.youtube.com/watch?v=jCNaQocWumo&t=1058s
- 도구변수
https://medium.com/bondata/instrumental-variable-2-e4ff9ae9ca09
이미지 출처
움짤 출처1 : https://media.giphy.com/media/LwHaQCGZMdD9Ghalrl/giphy.gif
움짤 출처2 : https://media.giphy.com/media/mvyvXwL26FfAtRCLPk/giphy.gif
움짤 출처3 : https://media.giphy.com/media/l0DEJvXHmIoM8702Y/giphy.gif
'프로덕트분석' 카테고리의 다른 글
엔믹스는 왜 스페인어에 진심일까? (2) | 2024.01.31 |
---|