에어브릿지 블로그에 게시된 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.

이미지: shutterstock
이미지: shutterstock

by 송지연 에어브릿지 COO

일반적으로, 숫자와 논리로 나타나는 데이터분석, 통계, 알고리즘은 가치중립적일 것이라고 생각합니다. 특히 어떤 주장을 뒷받침할 경우, 그러한 숫자들은 주장을 강화하는 객관적 자료로 쉽게 쓰입니다.

더불어, 단순히 숫자를 나열하는 것 이후의 데이터 수집과 분석의 목적은 궁극적으로 해당 데이터 분석에서 어떤 특정 가설을 통한 ‘인사이트(insight)’를 도출하여 담당자로 하여금 직접 행동을 취하도록 하는데 있습니다. 예를 들면, 현재 내 앱의 사용자의 활동성이 떨어진다는 현상이 나온다면 해당 현상을 설명할 수 있는 데이터를 수집하고 분석하여, 어떤 세그먼트의 사용자들이 왜 활동성이 떨어졌는지 분석해 가설을 세우고, 다시 활동성을 높여줄 수 있는 행동(광고, 푸시메시지 등등)을 취해서 다시 사용자의 활동성을 높여줄 수 있는 소기의 목적을 달성하는데 있습니다.

다시 말해, 문제 정의(혹은 목표 설정)과 그 목표를 달성하기 위한 과정이 데이터 수집(Data) -> 가설설정(Insight) -> 행동 및 실험(action)의 무한반복이 이루어진다고 할 수 있습니다.

그런데 여기서 간과하기 쉬운, 그러나 제일 중요한 것은 ‘데이터 중립성’을 전제로 한다는 것입니다. 데이터가 중립적이지 않을 수도 있다는 개념이 생소하실지도 모르겠지만, 가공된 데이터는 항상 중립적이지 않을 수 있는 위험(biased)이 있습니다. 이는 수집된 데이터의 정확도(accuracy)와는 또다른 이슈로, 정확하지 않은 데이터가 잘못된 결론을 도출하는 것과는 다른 개념입니다.

통계적으로도 수집된 데이터를 컴파일하는 과정에서 샘플링(sampling)을 어떻게 하느냐, 클러스터링(clustering)을 어떻게 하느냐에 따라서, 충분히 다른 결과를 의도하지 않아도 편향된(biased)된 결론을 도출할 수 있습니다. 물론, 의도적으로 결과를 왜곡하고자 할 때에는 말할 것도 없이 왜곡된 결과를 보여줄 수 있습니다.

예를 들면, 데이터를 수집하는 과정에서도 충분히 문제가 될 수 있습니다. 이는 데이터에 대한 정의를 어떻게 내리느냐에 따라서도 충분히 있을 수 있으며 (예를 들면, roundup bias도 이런 맥락입니다.) 만약 살펴보고 싶은 내용에 대해서 전수 데이터를 수집하지 않을 경우 어떻게 샘플링을 하느냐에 따라서도 큰 결과 차이(sampling bias)를 가져올 수 있습니다. 또한 초기 인풋을 어떻게 설정하느냐, 어떤 데이터를 넣느냐에 따라서 결론적으로 왜곡된 결론을 도출하는 알고리즘을 만들 수도 있습니다.

실제로 의도하지 않았더라도 편향된 결과를 가져오는 수 많은 사례가 존재합니다. 구글과 아마존이라고 해도 예외가 아닙니다. 구글은 자사의 얼굴인식이 흑인을 고릴라로 분류하는 문제가 있었고, 미국에서 범죄자를 예측하는 프로그램에서도 인종에 따라 왜곡된 결론을 도출하는 문제로 크게 이슈가 되었던 적이 있습니다.

이는 데이터를 분석하는 그리고 알고리즘을 구성하는 사람들이 의도적이지 않아도(unintentional) 나타날 수 있는 문제이며, 사실상의 더 큰 문제는 이러한 분석의 왜곡이 발견하기 어려운 것이라는데 있습니다.

그럼에도 불구하고 이렇게 데이터를 수집하고 분석하여 더 나은 의사결정을 내리는 것은 충분히 의미있는 과정입니다. 위에서 말한 것과 같은 위험이 있음에도 사업의 의사결정 과정에서 데이터는 결정을 내리는데 중요한 가늠자가 되고는 합니다.

그렇기에, 데이터를 수집하고 분석하는 곳에서는 최소한으로 데이터 분석이 왜곡될 수 있는 위험을 막아보고자 필수적으로 데이터 수집과 분석이 중립적일 수 있도록 다른 이해관계자와 충돌을 막는 구조를 가지고 있습니다. 소위 말해, ‘팔이 안으로 굽을 수 밖에 없는’ 상황을 막아보고자 ‘check and balance’적인 ‘corporate governance’를 만들고 있습니다. 예를 들면, 은행에서 돈을 신용평가하는 부서와 돈을 대출해주는 부서는 서로 다른 KPI를 가지고 있고, 회사의 재무부서와 세일즈 및 마케팅 부서는 서로 다른 목적을 가지고 운영되고 있는 것과 마찬가지 입니다.

광고 시장에서도 데이터를 수집하고 분석하여 성과 분석을 담당하는 유입경로분석툴(Attribution Analytics)도 이러한 속성을 지니고 있습니다. 소위 말하는 ‘3rd party’라고 하는 이유는 광고 시장에서 돈을 받거나, 돈을 주는 쪽 어떤 쪽과도 이해관계가 없이 중립적으로 데이터를 수집하고 분석해야 하기 때문이라고 할 수 있습니다.

실례로 2014년 ‘Upsight’라는 해외 분석툴(Analytics)의 경우 ‘PlayHaven’이라고 하는 AD Network를 매각했습니다. 매각 당시, 언론에 보도됐던 매각 사유는 다음과 같습니다.

In the name of preserving neutrality, Upsight is selling off the piece of its business that could cause that conflict of interest.

이렇게 유입경로분석툴(Attribution Analytics)가 ‘AD Netowrk’를 팔아버릴 수 밖에 없었던 배경에는 이해관계자 충돌(Conflict of Interest)이 중요한 역할을 하고 있습니다.

실제 유입경로 분석툴(Analytics)의 핵심가치는 고객의 데이터를 정확하게 전달 및 분석함으로써 고객이 데이터에 기반한 가치중립적 판단을 내릴 수 있게 해주는데 있습니다. 반면, AD Network의 이해관계는 고객이 유료광고를 얼마나 더 많이 할 수 있는가에 달려있다. 다시말해, 고객이 해당 AD Netowork 내에서 광고를 더 많이할수록 돈을 더 많이 버는 구조입니다.

따라서 Upsight는 AD Network와 Analytics Tool은 핵심가치가 서로 충돌되며, 양립하기 어려운 구조라고 인식했으며, 실제로 많은 Upsight이외의 많은 분석툴(Analytics)회사에서 이러한 이해관계의 충돌에 대해서 우려를 표시(The importance of unbiased mobile attribution analytics)하기도 했습니다.

But just like in the judicial system, the only way it can work is if the judge is impartial. No hidden interests or axes to grind. In short, unbiased, and you guessed it, transparent.

위 아티클에서는 실제로 유입경로분석툴(Attribution Analytics)을 통해 집계한 설치수(Attributed Install)가 60,000이었으나, 광고를 집행한 AD Network사에서는 설치수가250,000으로 주장하였던 사례를 들며, 결국 double-attribution, re-attribution 등을 파악하지 못한 AD Network의 과대계상으로 판명난 사례가 적혀 있습니다. 그리고 사실상 이는 근본적으로 AD Network의 기술이 부정확하기 때문이 아니라, 이러한 부분이 돈을 벌어다주는 비지니스의 핵심가치가 아니어서 발생할 수 밖에 없는 구조적인 문제라고 보고 있습니다.

모바일 앱 마케팅분석툴 에어브릿지에서는 이러한 이해관계자 충돌없이, 가장 정확하고 가장 중립적인 데이터를 앱 마케터들에게 전달해드리려 노력하고 있습니다.