데이터 기반으로 일하기에 대한 흔한 오해 (2탄): '임팩트'를 정량적으로 측정하고 예측할 수 있을까?
임팩트, 임팩트, 임팩트
'임팩트'를 정량적으로 측정하고 예측하기... 데이터 기반으로 일하고 싶은 팀들이 간절히 원하는 것입니다. 첫 문장만 읽어도 눈치 채셨겠죠. 여러분이 원하는 그거, 많은 경우에 불가능하거나 유용하지 않다는 얘기를 하는 글입니다.
이분법적 사고 말고, 미묘한(nuanced) 사고를 탑재해 주세요.
들어가기 전에 일러두자면, 이 글의 논지를 이해하시려면 이분법적 사고가 아닌 미묘한(nuanced) 사고를 해 주시길 바랍니다. (이런 글에 관심을 가지는 분들은 이분법적 사고를 하진 않으실 거라고 생각하지만, 혹시 모르는 마음에 일러둡니다.)
여기서 이분법적 사고란 "정량적 임팩트 측정은 가능하다" 혹은 "정량적 임팩트 측정은 불가능하다"라고 단순하게 생각하는 것입니다. 이분법적으로 세상을 보면 이런 생각을 하게 됩니다.
- 'OOO 회사는 A/B 테스트를 해서 정량적 임팩트를 측정했다는데, 왜 정량적 임팩트 측정이 불가능하다고 말해? 임팩트를 측정한 케이스가 엄연히 있잖아' 같은 생각. (한 곳에서 가능하면 다른 모든 곳에서도 가능해야 한다는 전제가 깔린 생각입니다.)
- '데이터 기반으로 일하는 팀들을 보면 임팩트를 정량적으로 측정하거나 예측하던데, 그걸 못 한다고 하면 데이터 기반으로 일하는 게 불가능한 거 아니야?' 같은 생각. ('임팩트 측정과 예측'이 너무 중요하다고 믿는 나머지, 데이터를 사업에 활용하는 방법이 그것 말고도 많다는 것을 이해하지 못하는 생각입니다.)
- '임팩트를 정량적으로 측정하거나 예측하는 게 불가능하면, 임팩트를 고려해 가면서 일하는 것 자체가 불가능하다는 얘기야?' (피터 드러커가 했다고 전해지는 "측정할 수 없는 것은 관리할 수 없다"라는 말을 맹신한 나머지, 임팩트를 '정량적으로' 측정하거나 예측하는 게 너무 중요하다고 믿고, 정량적인 방법을 사용해야만 임팩트를 고려하는 것이라고 믿는 생각입니다. 하지만 피터 드러커는 저런 말을 한 적도 없고, 저런 믿음을 가지지도 않았고, 저 말은 전형적인 이분법적 사고이자 틀린 말입니다.)
미묘한(nuanced) 사고란 이렇게 생각하는 것입니다.
- 특정한 조건이 충족되면 임팩트를 정량적으로 측정하거나 예측하는 것이 가능하다.
- 임팩트를 측정하거나 예측할 수 있게 만들어 주는 조건을 충족시키지 못하는 경우가 많다.
- 하지만 이런 조건이 충족되더라도, 어떤 상황에서는 임팩트를 측정하는 것이 유용하지 않을 수 있다. 임팩트를 측정하는 데 너무 많은 비용이 소요될 수도 있고, 임팩트를 측정해 봤자 너무 오래 걸리거나 사소해서 의사결정에 활용하기 어려울 수도 있다.
- 특정한 조건이 충족되지 않으면 임팩트 예측은 고사하고 측정조차 할 수 없다.
- 하지만 임팩트를 정량적으로 측정하거나 예측하지 못하더라도 괜찮다. 정성적인 방식, 지식과 상식과 로직과 어섬션(assumptions, 믿음과 가정)을 기반으로 임팩트를 예상하고 판단할 수 있다.
- 어떤 경우에는 임팩트에 관심을 가지고 거기에 시간을 쓰는 게 해로울 수도 있다. (예: PMF를 찾지 못한 초기 스타트업. 사람들이 쓸모 있게 느끼고 돈을 내고 싶어하는 제품을 만들지 못했으면서 '이런 기능을 추가하면 리텐션이나 매출에 어떤 임팩트가 있을까?' 같은 고민을 하는 것은, 집에 큰불이 나서 가재도구가 몽땅 불타고 있는데 주식 어플 들여다보면서 1-2% 등락을 걱정하는 것이나 마찬가지다. 주식 어플 그만 들여다보고 불부터 끄자. 임팩트는 나중에 생각하고, 일단 쓸모 있고 돈을 낼 만한 제품부터 만들자.)
"It depends"라는 말이 있죠. 어떤 경우에는 맞는 말이 어떤 경우에는 틀릴 수 있고, 저 회사의 상황과 맥락에서는 유용했던 방법이 우리 회사의 상황과 맥락에서는 유용하지 않을 수 있습니다. 같은 말이 어떤 경우에 맞게 되며 어떤 경우에 틀리게 되는지, 같은 방법이 어떤 조건과 환경과 상황과 맥락에 놓인 회사에 유용하고 유용하지 않은지 뉘앙스를 이해하는 것, 그것이 미묘한(nuanced) 사고입니다. 그럼 일러두기는 이 정도로 하고, 본론으로 들어가 보겠습니다. (사실 이 '일러두기'에 본론과 결론이 다 들어있지만...)
이런 임팩트, 예측은커녕 측정하기도 어려워요.
요즘 스타트업에서 일하는 제품 리더 분들을 만나다 보니, 이런 임팩트를 측정하거나 예측하고 싶다는 말씀을 듣게 됩니다. 하지만 많은 경우 이런 임팩트를 예측하기는커녕 측정하는 것조차 어렵습니다. 그게 뭐냐면...
어떤 한 가지 기능 혹은 액션이 리텐션(혹은 이탈) 지표에 끼치는 임팩트
예를 들면 이런 것입니다.
우리는 B2B SaaS를 만들고 있는 회사이다. 현재 고객들의 코호트 리텐션 지표는 장기적으로 40%에 수렴한다. 통계 기능을 개선하면 고객들의 만족도가 증가해서 리텐션이 개선될 것 같긴 한데, 이걸 정량적으로 예측하고 싶다. 통계에 새로운 기능 A를 추가하면 리텐션 지표가 몇 퍼센트로 증가할까?
('측정' 관점에서 다시 써 보면) 지난 주에 통계에 새로운 기능 A를 추가했다. 이게 리텐션 지표를 몇 퍼센트만큼 변화시켰는지 정량적으로 파악하고 싶다. 데이터를 어떻게 분석하면 A기능이 리텐션에 끼친 임팩트를 측정할 수 있을까?
사실 통계 기능 개선을 위한 아이디어는 A기능 하나뿐 아니라 B기능, C기능, D기능까지 4개가 있다. A, B, C, D를 다 만들 계획이지만, 정량적 임팩트가 큰 순서대로 개발을 하고 싶다. 그래서 A, B, C, D가 리텐션 지표에 끼치는 임팩트를 각각 예측하고, 이에 따라 우선순위를 세우고 싶다.
(우선순위를 설정하거나 기능의 개발 순서를 정하는 의사결정을 할 때 오직 정량적 임팩트라는 기준만 반영해야 한다고 생각할 때 빠지기 쉬운 함정입니다.)
고객들이 우리 회사 고객센터에 문의를 접수한 뒤, 고객센터로부터 답변을 받는 데까지는 평균 48시간이 걸린다. 48시간이 너무 길다는 불만을 가진 사람들이 있고, 이탈하는 고객들 중 이걸 이유로 꼽는 사람들이 있다. 모든 고객의 응대시간을 줄이기는 어렵고, 등급이 높은 고객들에 한해 48시간을 24시간으로 줄여 보려고 한다. 이렇게 하면 고객의 이탈률은 몇 퍼센트로 줄어들게 될까?
왜 측정/예측할 수 없을까?
- 리텐션은 여러 요인(인풋)이 작용해서 나타나는 결과(아웃풋)입니다.
- 이런 경우 인풋 하나가 바뀐다고 아웃풋이 드라마틱하게 변화하지는 않습니다.
- 그래서 기능 추가나 개선, 실행 하나를 한다고 해서 리텐션 지표가 드라마틱하게 변화하지는 않습니다.
- 물론 인풋이 아웃풋에 '영향'을 주는 건 맞습니다. 어떤 식으로든 변화를 주긴 할 겁니다.
- 어쩌면 기능 하나를 개선함으로써 월 이탈률(month-over-month churn) 지표가 이를테면 10%(기능 개선 전)에서 9.5%(기능 개선 후)로 변화할 수는 있습니다.
- 하지만 월 이탈률 지표가 10%에서 9.5%로 변화했다고 했을 때, 이게 기능 개선의 영향 덕분인지는 알기 어렵습니다. 왜냐면 지표는 원래도 우리가 알지 못하는 이유로 늘 오르락 내리락하기 때문입니다. (평균 이탈률은 10%이지만 어느 달에는 9%, 어느 달에는 11% 식으로)
- 기능 개선 이후에 관측되는 지표 변화(이 경우 0.5%p 변화했죠)가 통상적인 변동폭(이 경우 위아래로 1%p 오르락 내리락해왔죠)보다 작으면, 이 변화가 기능 개선 덕분인지, 아니면 그냥 원래 오르락내리락하던 패턴이 이어지고 있는데 우연히 이번에는 내려간 것인지 알 수 없습니다.
- 즉 기능 개선을 해서 리텐션 지표가 변화하더라도, 우리는 이 변화가 기능 개선 때문인지 아니면 다른 요인 때문인지 알 수 없다는 얘기입니다. 그말인즉슨 기능 개선이 리텐션에 영향을 얼마만큼 줬는지 측정할 수 없다는 뜻입니다.
- 기능 개선 이후에 관측되는 지표 변화가 통상적인 변동폭을 뛰어넘는다고 해도 문제는 남습니다. 변인 통제의 문제입니다.
- 예를 들어 기능 개선 후 월 이탈률이 10%에서 7%로 변화했다고 해 보겠습니다.
- 그런데 기능을 개선하는 동안 우리 팀이 한 일이 여러 가지가 더 있을 수 있습니다. 고객 대응 프로세스를 개선해서 이탈 요인을 줄였고, 마케팅을 개선해서 '덜 이탈하고 오래 이용할 만한' 고객들을 획득하는 등으로요.
- 이런 경우 '변인 통제'가 되지 않은 것입니다. 다른 모든 변인들이 그대로인 채로 하나의 변인만 변화시켜야만, 인풋이 아웃풋에 끼친 영향력을 제대로 측정할 수 있습니다. 하지만 여러 인풋들이 작용해서 아웃풋인 리텐션 지표가 변화했기 때문에, 하나의 인풋의 효과를 '발라낼' 수가 없습니다.
- 리텐션에는 외부 요인도 작용합니다. 먼 나라에서 전쟁이 일어나고 미국 연준이 금리를 올려서 거시경제 환경이 나빠지면 고객들이 우수수 떨어져나갈 수 있습니다. 요즘 (2023년) 같은 시기에는 리텐션에 이런 거시적 외부 요인이 훨씬 더 큰 영향을 주기도 합니다. 이런 여러 요인들이 작용했는데, 기능 개선 하나의 효과를 '발라내서' 특정하기란 정말 정말 어렵습니다.
- A/B 테스트를 잘 설계해서 변인 통제를 하면 된다고 생각할 수도 있습니다. 하지만 대부분의 스타트업은 A/B 테스트를 할 조건(많은 수의 고객)과 역량(기술적 인프라, 분석 역량 등)을 갖지 못했습니다. 이론적으로는 가능할 수 있어도 실질적으로 유용한 선택지는 아닙니다.
- A/B 테스트를 할 조건과 역량을 갖췄다고 해도 문제입니다. 리텐션에 끼치는 영향은 (즉각적으로 나타나는 게 아니라) 장기적으로 나타납니다. 기능 개선을 해 놓고는 리텐션 지표 변화를 측정하기 위해 오랜 시간 동안 일부 사용자들을 대상으로 테스트하는 것보다는, 짧은 기간 동안 리텐션이 아닌 다른 선행 지표(인게이지먼트 등)의 변화를 확인한 뒤 바로 모든 사용자에게 기능을 적용하는 것이 더 나은 선택일 수 있습니다. 테스트를 너무 오래 하는 건 이론적으로는 정량적 임팩트를 측정하는 방법일 수는 있어도, 비즈니스에 유용한 선택지는 아닌 경우가 많습니다.
- 지금까지 측정이 어려운 이유를 말씀드렸는데, 같은 이유로 예측도 어렵습니다.
- 예측을 하려면 '예측 모델(수식)'을 만들어야 합니다. 예측 모델은 과거의 관측치를 토대로 만들고, 실험을 통해 검증해야 합니다.
- 하지만 리텐션 같은 지표 관련해서는 (앞에서 이야기한 이유들로 인해) 과거 데이터를 관측해서 결론을 내리기도 어렵고, 실험을 하기도 어렵습니다. 그렇기 때문에 예측력 있는 모델(수식)을 도출하는 것도 어렵습니다.
- 예측력 있는 모델이 없다면 제대로 된 예측을 하는 것도 불가능합니다. 대략적으로 '이건 영향이 클 것 같다/작을 것 같다' 같은 판단은 해 볼 수 있지만, 기능이나 실행 하나하나의 예측치를 계산해 내고, 그 예측치를 비교해서 우선순위를 정하는 것은 꿈에서나 가능한 일입니다.
특정한 기능 혹은 실행이 매출에 끼치는 임팩트
리텐션과 마찬가지로, 기능 개선 하나, 실행 하나가 매출에 끼치는 임팩트 또한 측정하거나 예측하기 어렵습니다. 원리는 같습니다. 실행 하나가 매출에 영향을 끼치는 정도가 낮기 때문에 관측 자체가 어렵고, 매출은 여러 내외부적 요인이 겹쳐져서 나오는 결과이기 때문에 한 가지 요인의 효과를 '발라내기' 어렵고, 실험을 하기도 쉽지 않습니다.
(물론 구매 전환 플로우에서 이탈률을 감소시키는 것처럼 매출에 직접적이고 즉각적인 영향을 주는 실행인 경우에는 비교적 쉽게 임팩트를 측정/예측할 수 있습니다. 이런 건 예외입니다.)
우리 제품의 유료 이용 고객들의 이야기를 들어 보니 A기능이 특히 마음에 끌려서 이용을 시작했다고 말하는 사람이 많다. 그런데 A기능을 이용하는 고객 수는 많지 않고, 실제로 많은 고객이 이용하는 기능은 B기능이다. A기능을 개선하는 아이디어와 B기능을 개선하는 아이디어 중 우선순위를 정하기 위해, 각 아이디어를 실행했을 때 매출을 얼마 증가시킬지 임팩트를 예측하고 싶다.
이 경우, 다음과 같은 질문들에 대한 답을 찾기 전까지는 매출 임팩트를 신뢰성 있게 예측하기란 어렵습니다. 그리고 이런 질문에 대한 답을 찾는 건 정말 어렵습니다. (저는 가능하지 않다고 봅니다.)
- A기능이 신규 고객 유치에 도움이 되는 건 알겠다. 그런데 고객들이 실제로 많이 이용하지는 않는다면, 이건 이탈 요인일 수도 있지 않을까? 신규 고객 유치에 도움이 되는 효과, 이탈에 기여하는 효과를 더하고 빼면 Net으로 남는 효과는 어느 정도일까?
- B기능을 많은 고객이 이용하고 있는데, 그럼 고객들이 B기능 덕분에 우리 제품을 계속 이용한다고 봐야 할까? 알고 보니 C, D, E, F 기능도 많이 이용되고 있는데, 그럼 B, C, D, E, F 각각의 기여도를 어떻게 발라내야 하지?
- A 기능을 개선해서 신규 고객을 유치하는 것이든, B 기능을 개선해서 리텐션을 개선하는 것이든, 기능 개선만 한다고 해서 매출이 증가하는 것은 아니다. 어떻게 개선된 기능을 고객들에게 알리고 교육하는지에 따라 기대할 수 있는 매출은 달라진다. 그러면 '기능 개선(제품팀)', '잘 알리기(마케팅팀, 세일즈팀)', '온보딩 개선(제품팀, CS팀)' 등의 기여도를 각각 어떻게 발라내야 하지?
그러니까 요약하자면 이렇습니다.
- 어떤 실행을 함으로써 지표에 끼치는 영향이 직접적이고, 즉각적이고, 통상적인 변동폭을 넘어서는 눈에 띄는 수준인 경우, 그리고 다른 요인의 영향이 적은 경우에만 임팩트를 측정/예측할 수 있다.
- 리텐션, 매출 등 여러 인풋들의 영향이 모여서 최종적으로 나타나는 아웃풋 지표에서는 이런 조건이 충족되지 않는다.
- 그러니 기능 하나, 실행 하나가 리텐션, 매출 등에 얼마나 영향을 끼치는지 정량적으로 측정하거나 예측하는 것은 어렵다.
그러면 어떻게 해야 될까?
지금까지 '불가능하다. 못한다. 어렵다.'라는 말만 하고 있으니, 글을 쓰는 저도 기운이 빠지는 것 같습니다. 글을 읽는 여러분은 아마 더한 기분이 드실 것 같습니다.
그럼 어떻게 해야 할까요? 지금 시점에서 제가 가지고 있는 결론은 이렇습니다.
어떤 기능이나 실행을 평가할 때, 리텐션이나 매출 같은 최종 아웃풋 지표 말고 다른 지표를 기준으로 평가하자.
기능이나 실행을 평가할 때 꼭 리텐션이나 매출 같은 최종 아웃풋 지표를 볼 필요는 없습니다. 기능이나 실행이 리텐션이나 매출에 직접적인 영향은 끼치지 못하더라도, '리텐션에 영향을 끼치는 인풋 지표'에 직접적인 영향을 끼친다면, 그런 인풋 지표의 변화를 기준으로 평가해 볼 수 있을 것입니다. 그게 아니더라도 feature adoption, feature retention 같은 지표들을 통해 평가하는 것도 가능하구요.
모든 것을 측정할 수 없다는 한계를 인정하고, Assumptions-based model을 사용해서 의사결정하기.
물론 이런 반문을 하실 수 있습니다. Feature adoption, feature retention 같은 지표가 좋더라도 실제로 리텐션이나 매출 지표를 변화시키지 못하면 무의미한 거 아니냐고.
이런 반문을 하는 분들께 저는 '원래 의사결정이라는 게 그런 것이니 한계를 받아들이자'라고 말씀드리고 싶습니다. 현실 세계에서는 완벽한 정보가 없는 불확실한 상황에서 어찌됐든 의사결정을 해야 하고, 완벽한 정보가 없어서 생기는 빈자리는 믿음 혹은 가정(assumptions)으로 채울 수밖에 없습니다. (같은 것을 가리키는 좀 더 있어 보이는 용어로는 '로직(logic)'이 있습니다.) 예를 들면 이런 것들입니다.
- 새로 만드는 기능을 많은 고객이 이용해서 인게이지먼트(depth, frequency, efficiency 등) 레벨이 높아지면 그만큼 고객들이 우리 제품의 가치를 더 많이 느낄 것이다. 그러면 리텐션 지표도 개선될 것이다.
- (아직 우리 제품에 없는) A기능은 많은 고객들이 겪고 있는 abc 문제를 해결할 수 있는 기능이다. 우리가 파악한 바로는 고객들은 abc 문제로 인해 xyz 만큼의 비용과 시간을 낭비하고 있고, 그래서 abc 문제를 해결할 방법을 적극적으로 찾고 있다. 그래서 A기능은 잠재적으로 매출에 큰 영향을 끼칠 수 있으니 높은 우선순위를 부여해도 좋을 것이다.
모델에 대해 더 궁금하신 분들은 아래 자료들을 읽어보시길 추천드립니다.
우선순위를 설정할 때, 정량적 임팩트 말고 다른 요인들도 고려하자. 특히 전략...
정량적 지표 혹은 데이터는 의사결정 시 고려하는 요소들 중 하나일 뿐입니다. 이건 1편에서 했던 얘기입니다.
특히 한국 스타트업에서 푸대접받는 것이 전략의 역할입니다. 제가 만난 많은 스타트업들은 OKR은 수립해도 전략은 갖고 있지 못했습니다. 전략에 관해서는 나중에 자세히 다뤄 볼 생각이라, 이 글에서는 짧게만 언급하겠습니다.
프로덕트 분야에서 가장 영향력 있는 사람들(한국에도 잘 알려진 Lenny Rachitsky, Shreyas Doshi, Julie Zhuo, Marty Cagan 등)이 입을 모아 추천하는 책이 있습니다. 리처드 럼멜트의 "Good Strategy, Bad Strategy"입니다. (한국어판 제목: 전략의 거장으로부터 배우는 좋은 전략 나쁜 전략)
"Good Strategy, Bad Strategy"에서 리처드 럼멜트가 하는 말을 요약하면 이렇습니다.
- 전략은 철저한 진단(diagnosis)에서 시작합니다. 현재 시장 상황은 어떻고, 고객들은 어떻고, 경쟁사는 어떻고, 우리 회사 내부는 어떠한지, 어떤 일이 일어나고 있고 어떤 변화가 일어나고 있는지 등을 명확히 이해해야 합니다. 진단을 통해 기업이 극복해야 하는 중요한 도전과제(challenge)를 정의합니다.
- 도전과제를 극복하기 위해 우리가 택할 접근법(guiding policy)을 정의해야 합니다. Guiding policy는 우리가 무엇을 할지, 무엇을 하지 말아야 할지 trade-off를 명확하게 해 주는 기준이 됩니다.
- Guiding policy에 맞게 응집력 있는 액션들(coherent set of actions)을 계획하고 실행해야 합니다.
하지만 많은 스타트업은 이런 접근을 하지 못하고 있습니다. 많은 팀이 매출이나 리텐션을 높이려면 어떻게 해야 할지 이런 저런 아이디어들을 실행하는 수준에 그칩니다. 상황을 철저히 진단해서 도전과제를 정의하고, 그에 따라 응집력 있는 액션을 하는 팀은 소수에 그칩니다. 전략을 물어보면 OKR을 얘기하는 팀도 부지기수입니다.
우선순위 설정에 어려움을 겪는다면, 혹은 오직 지표에 끼치는 정량적 임팩트('매출을 얼마나 높일 수 있나?' '전환율을 얼마나 높일 수 있나?')만을 우선순위 판단 기준으로 삼는다면, 우리 회사가 '진짜 전략'을 가지고 있는지 생각해 볼 필요가 있습니다. 회사에 OKR 문서만 있고 전략을 명시적으로 정의한 문서는 없다면, 전략을 수립하기 위해 진지하게 시간과 노력을 들인 적이 없다면 '진짜 전략'을 가지고 있지 못할 가능성이 높습니다. 전략을 소홀히 하면 많은 실행이 삐걱거리게 됩니다. 전략에 시간을 투자하는 것은 ROI가 높은 투자입니다.
임팩트 측정과 예측으로 시작해서 전략 얘기까지 많은 얘기를 한 글이었는데, 제 뜻이 잘 전달되었을지 모르겠습니다. 잘 이해가 되지 않는 부분이 있으면 메일 혹은 댓글로 말씀해주세요. 감사합니다!
데이터 기반으로 프로덕트 만들기에 관해 더 많은 내용을 인프런 <시작하는 PM/PO들에게 알려주고 싶은 것> 강의에서 배우실 수 있습니다. 아래 링크로 들어가서 강의를 살펴보실 수 있습니다.