[플랫폼 전략 탐구생활] 데이터 전성시대의 딜레마 : 데이터 공유-데이터 주권 사이

5월 10, 2022

※ 본 고는 매월 연재 중인 LG CNS ‘DX Insight’ 중 4월호 특별편에 실린 원고의 원본 버전입니다. LG CNS 뉴스레터를 구독하시면 해당 월의 칼럼을 먼저 받아보실 수 있습니다.

디지털 전환(Digital Transformation)이 화제다. 유례 없는 팬데믹의 장기화는 사회 전 분야에 디지털 혁신을 가속화시키고 있다. 덕분에 우리는 최근 2년 동안 하루가 멀다하고 많은 영역에서 근본적인 패러다임의 변화를 목도 중이다.

‘빅데이터’와 ‘인공지능’은 디지털 혁신을 이끄는 최신 IT 기술 중에서도 대표 기술로 언급된다. 인공지능이 좀 더 ‘기술(Technology)’적 느낌을 준다면, ‘데이터’는 인공지능이 읽고 분석해야 하는 ‘텍스트(text)’ 개념에 가깝다. 인공지능이 텍스트인 ‘데이터’를 분석하여 결과를 도출하면, 그 결과 데이터를 다양한 산업 영역에 적용하여 직접적인 ‘변화’를 이끌어내는 것은 인간의 몫이 된다. ‘디지털 혁신’은 이 모든 과정이 원활하게 진행될 때 비로소 나타나는 실체적 현상이다.

사람들이 빅데이터를 통한 디지털 혁신을 보다 직접적으로 체감하게 되는 것은 ‘개인화’(personalization) 때문일 것이다. 개인화는 이용자의 정보를 기반으로 이용자의 ‘필요’를 파악하여 맞춤형의 정보나 솔루션을 제공하는 것을 뜻한다. 일례로 이커머스 사업자들이 이메일, 문자, 팝업 등을 활용하여 고객 개개인에게 다른 메시지의 맞춤형 광고를 발송한다거나, 네비게이션 앱이 실시간으로 도로 상황을 파악하여 운전자에게 효율적인 이동 동선을 제시하는 것 등은 데이터를 활용한 대표적인 ‘개인화’ 구현 사례들이다.

개인화 구현을 위한 필수 조건, ‘데이터 공유‘

정보과잉의 시대에서 ‘개인화’는 개인에게 필요한 정보만을 골라서 효율적인 대안을 제공받는 것이기 때문에 어느 때보다 바쁘게 살고 있는 현대인들에게 더없이 유용하다. 그런데 이러한 ‘개인화’가 가능하려면 ‘데이터 공유’가 전제되어야 한다. 인공지능이 수많은 데이터 중에 가장 적합한 시간에, 내 필요에 맞는 데이터를 찾아서 최상의 솔루션을 제안하려면 나의 평소 데이터를 알고 있어야 하기 때문이다.

스필버그의 영화 <마이너리티 리포트>를 기억하는가? 20년 전 개봉된 영화에서 스필버그는 데이터 기반의 ‘맞춤형 광고’가 일상화된 세상을 매우 실감나게 표현했다. 영화에서는 주인공 ‘존 앤더튼’(톰 크루즈)이 거리를 걸어갈 때마다 그의 홍채를 인식한 인공지능이 그가 당장 필요할 것 같은 제품의 구매를 권유하는 장면이 수시로 등장한다. 이는 극중 주인공의 생활 패턴이 모두 데이터로 공유되어 있었기에 가능한 것이었다.

2012년 미국 유통기업 ‘타겟(Target)’이 고교생 임산부에게 출산 시기에 맞춰 출산용품 쿠폰을 보낸 일화도 유명하다. 고교생 임산부의 평소 온라인몰에서의 구매패턴을 분석하여 출산이 임박했을 때 출산용품 쿠폰을 발송했던 사례였다.

이러한 ‘데이터 공유’는 이용자 편의성을 증진시킴으로써 산업 발전과 혁신에 기여한다. 대표적으로 코로나19의 다양한 백신들이 빠르게 상용화될 수 있었던 것은 ‘데이터 공유’에 기인한 결과다. 보통의 백신은 소수의 샘플을 활용하기 때문에 임상실험기간이 오래 걸리는 것이 일반적이지만, 코로나19 백신의 경우 사안이 시급한 만큼, 백신 사용자 데이터를 빠른 기간에 대량 확보할 수 있었기 때문에 단기간 상용화와 지속적인 성능개발이 가능할 수 있었다.

현재 데이터 공유는 산업의 전 영역에서 활발히 이루어지고 있다. IT는 물론이고, 제조, 상거래, 물류, 금융, 미디어, 모빌리티, 교육, 법률, 의료 등 많은 분야에서 빅데이터를 활용한 비즈니스 개선이 빠르게 진행 중이다. 이 때 확보한 데이터가 많을수록 예측의 정확성은 높아진다. 이는 데이터 기반 비즈니스가 실현되는 바탕이 되며, 개인화를 구현함으로써 이용자 편의성을 증대시킬 뿐만아니라 기업의 비용 효율성도 개선시킨다. 이처럼 디지털 혁신이 일어나는 선순환 구조는 ‘데이터 공유’에서 시작한다.

데이터 공유의 거대 장벽, ‘프라이버시’ 이슈

하지만 문제는 데이터 공유는 필연적으로 ‘개인정보’ 혹은 ‘프라이버시’와 충돌을 일으킨다는 데에 있다. “모든 것이 데이터화 된다”는 것은 우리의 모든 행동과 모든 움직임이 노출될 수 있는 위험성을 안고 있다는 뜻이기도 하다. 네비게이션 앱이 실시간 교통정보를 반영하는 것은 편의성을 제공하는 부분도 있지만, 이를 위해서는 현재 나의 위치가 노출되는 것을 감내해야 한다. 아직 우리나라에서는 활성화되지 않았으나, 미국, 일본, 중국 일부 지역에서는 의료 빅데이터를 활용한 불치병이나 난치병을 비롯한 다양한 질병들의 초기 발견률이나 진료 정확도를 높이기 위해, (그 지역 다수의 합의가 있었다고는 하지만) 개인들의 각종 크고 작은 진료 데이터 공유가 당연시되고 있다.

일반적으로 이용자들은 ‘나의 정보를 공유하는 것’에 대한 심리적 거부감은 물론이고, 내 정보 공유에 동의했다 하더라도 너무 정확한 개인화 솔루션을 제공받으면 오히려 공포감을 느끼곤 한다. 심리학자 버나드(Barnard)는 이를 ‘오싹함의 비용’(The cost of creepiness)라고 표현했다. 디지털 환경에서 이용자의 ‘행동 데이터'(behavior data)를 기반으로 한 개인화 마케팅이 너무 정확해지면 이용자들은 자신이 감시 또는 추적 당한다는 느낌을 받게 되어 저항감을 갖게 된다는 것이다. 이는 결과적으로 이용자 만족을 높이기는커녕, 저항감을 높이는 역효과만 낳기 쉽다. 따라서 현실적으로 이용자들에게 ‘개인정보보호’ 또는 ‘프라이버시 보호’는 편의성과 만족도를 뛰어넘는 최상위 욕구가 되므로, 기업은 개인화에 앞서 이를 반드시 최우선적으로 고려해야 한다.

미국 유통기업 ‘타겟’이 고교생 임산부에게 출산용품 쿠폰을 보낸 것이 화제가 된 것은 2012년 당시 기준으로 고객 데이터를 활용한 맞춤형 광고 사례가 흔치 않았던 것도 있었지만, 보다 근본적인 원인은 ‘개인정보침해’ 때문이었다. 딸의 임신 사실을 몰랐던 부모가 고교생에게 해당 쿠폰을 보낸 것이 부적절하다고 기업에 항의를 했는데, 알고 보니 딸이 부모 몰래 임산부 관련 물건을 타겟 온라인몰에서 구매했고 ‘타겟’은 고객의 구매 데이터를 분석한 결과 해당 고객이 임산부라고 판단했던 것이다.

데이터 활용에 따른 개인화 마케팅으로 보면, 타겟의 마케팅은 매우 정확했고 매우 효율적이었다. 심지어 쿠폰 제공 시점도 출산시기에 맞춰 발송되었기 때문에 고객 편의성 측면에서도 훌륭한 전략이었다. 문제는 그 데이터가 고객의 민감한 정보일 수 있다는 점을 간과했다는 것이다.

오늘날의 데이터 분석 기술은 타겟의 사례처럼 10년 전에도 이미 훌륭한 정확도를 자랑한다. 하지만 아무리 인공지능 기술이 발달했다고 해도, 고객 ‘데이터 자체'(data itself)를 넘어 ‘데이터 맥락'(data context)까지 읽는 기술은 아직 완성되지 않았다. 데이터 공유와 활용에 대한 갈등과 고민은 이처럼 데이터 맥락에 대한 인공지능의 판단이 아직 불완전한 데에서 발생한다. 이는 또한 데이터 윤리와 각종 데이터 활용을 제한하는 정책들이 강조될 수 밖에 없는 이유이기도 하다.

2012년 미국 유통기업 ‘타겟’의 임산부 고교생에 대한 맞춤형 마케팅 사례는 당시 ‘데이터 공유’와 ‘개인정보보호’에 대한 다양한 시사점을 제시한 사례로 남았다.

안전한 데이터 공유를 위한 시도들, ‘비식별화’와 ‘데이터 주권’

테크놀로지가 가져온 디지털 혁신을 경험하면서 빅데이터 활용에 대한 대합의는 이미 이루어졌다. 그러나 우리는 데이터 공유와 프라이버시 강화라는 상반된 기조에서 최적의 합의점을 찾아야 하는 과제를 안고 있다. 대표적으로 의료와 법률 산업은 디지털 전환의 필수이자 최후의 보루로 여겨지고 있으나 다른 국가에 비해 디지털 전환이 매우 뒤쳐져 있다. 이는 데이터 공유에 대한 심리적 반발 기조가 매우 강한 나머지 프라이버시 강화가 절대적으로 작용하고 있기 때문이다.

데이터 공유를 지향하면서도 프라이버시를 보호하기 위한 절충안으로서, 대표적으로 논의되고 있는 방안이 ‘비식별화’다. 비식별 데이터는 2014년 방통위가 발표한 ‘빅데이터 개인정보보호 가이드라인’에서 공식화된 이래, 현재 빅데이터 활용과 개인정보보호를 모두 충족하는 일종의 ‘만능키’ 같은 개념으로 통용되고 있다. 비식별화는 개인정보의 일부를 가리거나 바꾸어 개인을 특정하지 못하게 하는 기법인데, 방통위 가이드라인에 따르면 개인정보는 비식별화를 거치면 더 이상 개인정보가 아닌 것으로 간주된다.

구글 ‘프라이버시 샌드박스’ vs. 애플 ‘ATT’

물론 기술의 엄청난 발전 속도를 고려할 때, 아무리 뛰어난 비식별 기술이라고 해서 개인정보나 프라이버시를 완벽하게 보호할 수 있다고 보기는 어렵다. 실제로 비식별화된 정보들도 다양한 정보들과 결합하면서 개인정보를 생성하거나 ‘개인’을 추론할 수 있음을 증명하는 연구들도 다수 나오기도 했다. 기업들로서는 비식별 데이터의 재식별 위험을 모니터링해서 원 데이터 소유자(개인)에게 알려줘야 하는 또 다른 의무 부담도 존재한다. 그럼에도 현재로는 데이터를 수집하는 대다수 기업들에게 ‘비식별화’는 최선의 방법으로 여겨지고 있다. 구글이 2022년 2월 발표한 프라이버시 샌드박스 솔루션은 개인정보침해를 막는 새로운 추적기술로, 이러한 비식별화를 거친 개인정보를 활용하는 현재의 데이터 공유 기조를 반영하고 있는 정책이다.

반면, ‘데이터 주권’은 이용자 입장에서 프라이버시 강화에 초점을 맞춘다. 데이터 주권은 용어에서 느껴지듯, 개인이 정보공유부터 공개범위 및 활용여부 결정까지, 자신의 데이터 사용에 대한 주도권을 모두 갖는다는 의미로, ‘데이터 전성시대’를 사는 현대인들의 데이터 권한을 강화하는 개념으로 이해되고 있다. 이러한 데이터 주권은 2016년 유럽에서 개인정보보호규정 ‘GDPR’이 발효되면서 각광받기 시작했지만, 아마도 우리에게 친숙해진 것은 2021년 4월 애플의 ‘앱추적 투명성(ATT)’ 정책이 도입되면서부터일 것이다. 앱 추적 여부에 대해 이용자들에게 직접 선택권을 부여하는 ATT 정책은 초기 도입 직후에는 동의율이 5%에 불과할 정도로 이용자들의 행동 데이터 추적이 수월하지 않았다. 1년이 지난 지금도 글로벌 앱분석업체인 ‘플러리'(Flurry)에 따르면, 애플의 ATT 도입이후 글로벌 옵트인 동의 비율은 25% 수준이고 미국은 18%에 불과하며, 글로벌 앱트랙킹 추적은 4%에 머물고 있는 상황이다.

애플과 구글이라는 걸출한 두 빅테크 기업이 ‘데이터 공유’와 ‘프라이버시’에 대해 미묘한 차이가 나타나는 것은 데이터 공유와 활용에 대한 사회적 합의까지 아직 많은 논의가 필요함을 보여준다.

애플의 ATT(왼쪽)와 구글의 ‘프라이버시 샌드박스'(오른쪽). 출처 : AdPushUp

구글의 프라이버시 샌드박스는 개인정보를 비식별화 형태로 공유하되 기존 써드파티 데이터 시절보다 비식별 데이터 공유를 제한하고 데이터 추적 방식도 새로운 솔루션을 적용한다

정보주체자로서 ‘개인‘의 역할

마이너리티 리포트가 2002년 제작된 영화임을 감안하더라도, 걸러지지 않은 개인정보가 공개되거나 외부 앱에 아무런 제약 없이 접근할 수 있는 사례는 여전히 비일비재하다. 이는 단기적으로는 맞춤형 메시지를 통한 구매 의도를 높여 매출 상승에 기여할 수 있지만, 장기적으로는 이용자들의 심리적 반발을 강화시킬 것이 자명하다. 유명한 심리학자 잭 브렘(J.W. Brehm)은 개인은 자유를 잃거나 위협을 당할 때 더 심하게 반발한다고 주장했다. 휴대폰 하나만 있으면 웬만한 것은 다 할 수 있는 시대가 되었지만, 그만큼 나의 모든 일상이 공개되는 것에서 오는 스트레스도 커졌다. 나의 위치가 추적되고, 나의 취향을 플랫폼이 나보다 더 잘 알고 있다는 것은 절대 유쾌하진 않다. 심지어 나의 ‘미래의 선택’도 데이터와 인공지능이 결정한다면 더더욱 그렇다.

그래서 사람들은 자신의 정보를 보호하고자 움직인다. 플랫폼은 모든 것을 공유하자는 ‘오픈 세상’을 추구하는데, 개인들은 ‘폐쇄적 자세’를 취함으로써 이러한 흐름에 반발하는 형국이다. 이러한 흐름은 개인과 기업, 규제당국, 개발자 모두의 고민을 가중시킨다. 기술 개발이 앞서간 만큼, 기업의 데이터 윤리도 매우 중요해졌다.

하지만 무엇보다도 개인들의 적극적인 관심과 의견 개진이야말로 빅데이터 세상을 가장 확실히 정착시키는 핵심 요인이 아닐까? 정보의 생성자이자 데이터 제공의 주체자로서, 자신의 데이터가 제대로 활용되고 있는지를 알려면, 단순히 데이터 공유에 대한 동의/비동의가 아닌 개개인의 ‘공부’와 ‘관심’이 필요하다. 우리의 데이터는 이용자 만족도 증대를 넘어, 산업 발전에 기여하고, 공공의 이익을 개선시키며, 나아가 사회 혁신을 일으키는 핵심 동력이 될 수 있기 때문이다. 물론 ‘제대로’ 활용될 때의 이야기이겠지만.

[연관 글 보기]

네비게이션 제왕 “티맵(T-map)”의 유료 전환

참고사이트)

유진희(피아비키)님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.