[IT 트렌드 바로읽기] 데이터의 겉과 속 이해하기

12월 6, 2021

현재 일상화된 용어인 데이터는 전혀 새로운 것은 아니다. 과거 역사를 돌아볼 때 우리는 이미 데이터를 수집하여 사회를 발전시키는 데 활용해 왔다. 다만 개인이 데이터를 수집해서 활용하기가 지금과 같이 수월하거나 흔한 것은 아니었다.

그러나 디지털시대인 지금 우리는 방대한 양의 전세계 데이터를 활용할 수 있게 되었다. 데이터는 더 많은 의미를 담게 되었고, 더 유용한 형태로 수집되고 있으며, 더 신중하게 결과가 도출되고 있다. 즉 이제 데이터는 과거에 비해 더 방대하고 중요해졌으며 재사용이 가능한 자원이 된 것이다. 사실 이러한 결과는 개인 정보를 통합하고 수집하는 능력만으로 이루어진 것이 아니라 다양한 장치와 센서를 인터넷에 연결하여 폭발적인 속도로 증가하는 새로운 데이터를 생성하도록 한 우리의 능력으로 가능해진 일이다. 이제 데이터는 교통 흐름을 측정하는 도로변의 센서, 우리가 만드는 디지털 음악과 영화, 공중에 떠있는 인공위성, 공장과 금융 시장을 통제하는 센서와 시스템, 차세대의 새로운 시장을 디지털 방식으로 설계하기 위해 사용하는 도구 등에 의해 모든 장소에서 생성되고 있다. 이러한 정보는 급속도로 증가하고 더 멀리 전파되며, 중요성도 커지고 있다. 매일 2500경 바이트의 데이터가 생성된다고 추산되고 있는 가운데, 아직도 아날로그를 고집하는 사람들은 사실 데이터가 얼마나 방대한지 헤아리기도 어려운 정도로 데이터 양은 어마어마하다. 전 세계적으로 생성된 디지털 데이터의 양은 지구에서 달까지 DVD를 포개서 왕복할 수 있는 거리만큼 된다고 한다. 물론 이러한 양은 해마다 수치를 갈아 치우고 있다. 또한 데이터가 생성되는 속도도 점점 가속화되고 있고, 전 세계 모든 기업의 비즈니스 데이터의 양은 1~2년 마다 2배 이상으로 증가하고 있다. 그렇다면 그 많은 데이터는 어디에서 오는 것일까? (BSA.ORG 재 인용)

기상 측정 인공위성, 기상관측소, 레이다 및 기타 센서에서는 시간당 15회에 걸쳐 22억 5000만 개 이상의 데이터 요소에서 데이터를 캡처하여 전세계적으로 더 정확한 기상 예측이 가능하다. 금융 거래로 하루에 4-5 테라바이트의 데이터가 생성되어 실시간 분석 및 문제가 있는 거래 활동을 감지하는 데 사용되며, 기업이 성장하고 경제가 활성화되는 데 기여하고 있다. 또한 수 많은 배송 차량의 컴퓨터 통신 센서는 엔진 성능을 추적하고, 라우팅을 개선하며 사전에 문제를 감지하고 있다. 매핑 데이터 분석과 통합된 차량 센서 데이터를 통해 기업들은 엄청난 양의 연료를 절약하고 도로에서 수천대의 차량을 1년 동안 운행하여 발생하는 것과 같은 양의 배기 가스를 줄일 수도 있다. 물론 이는 데이터 추출의 일부 사례에 불과하지만, 지금 이 시간에도 다양한 곳에서 데이터는 엄청나게 쏟아지고 있다. 여러 분산된 인프라를 통해 데이터 컨테이너 단위로 나뉘어지고 통합되는 지속적인 네트워킹 활동과 함께 모여진 데이터는 알고리즘별로 다시 재배열, 분석, 가공의 과정을 거치게 되고 이를 통해 사용자들에게, 고객들에게, 소비자들에게 편리함을 혹은 이익을 실현시켜 준다. 한 가지 편리함의 사례를 들어보자면 독자 여러분들이 박물관이나 미술관 전시를 찾았을 때 이용할 수 있는 도슨트(docent) 프로그램이 있다. 전시장의 도슨트가 되어주는 ‘큐레이터 Curator’는 전시 기획 의도, 작품의 정보, 역사 및 작가의 이야기 등을 설명해 전시를 더욱 깊이 있게 이해하도록 돕는 사례로 나타난다.

물론 그 과정에서 큐레이터들이 전공 서적 살피듯이 모든 정보를 전달하지도, 우리가 그만큼 알 필요도 없을 것이다. 불필요한 정보를 배제하고, 지금 당장 의미 있는 정보들만을 효율적으로 전달함으로써 관람객들은 긴 시간과 노력을 할애하지 않더라도 마음껏 원하는 지식만을 탐닉할 수 있는 것이다. 이는 우리의 일상 속 접하는 모바일앱 정보 콘텐츠 속에서도 마찬가지로 녹아들어 있다.

사실 일상 속에서 접하는 다양한 정보가 모인 빅데이터는 우리가 상상하는 그 이상으로 더욱 밀접하게 소비자의 마음을 읽고, 빠르고 정확하게 예측해 필요한 정보들을 끊임없이 쏟아내고 있다. 이제 정보의 유무는 중요하지 않게 되었다. 오히려 정제되지 않은 데이터로 인해 데이터가 자산이 되기보다, 올바른 것도 아니면서 불확실한 낚시성 가짜 뉴스들까지 폭발적으로 생산되고 있는 현실 속에서 정확하고 필요한 정보를 찾아내야 하는 상황에 이르렀다. 많은 언론사와 퍼블리싱 브랜드, 개개인까지도 정보와의 싸움이 벌어지고 있는 상황에서 수많은 미디어들이 쏟아내는 정보 중 올바른 정보를 어떻게 찾고 이용해야 할지에 대한 의제가 끊임없이 제기되고 있다. 즉 우리가 ‘어떤 콘텐츠를 수용하고 이를 어떻게 유의미하게 이용할 것’인지에 포인트를 맞춰야 할 때가 온 것이다.

구글이나 네이버 같은 포털 사이트에 접속하면 사용자가 직접 편집, 구독한 언론사별 뉴스들이 나란히 제공된다. 이 같은 서비스는 과거 뉴스 캐스트의 일부 낚시성, 선정성 기사를 단절하고 사용자가 원하는 매체를 골라 보면서 다양한 정보와 의견을 접할 수 있도록 유도하고 있다. 하지만 과연 제공되는 콘텐츠가 우리에게 꼭 필요한 정보이고, 이 정보를 전부 수용해야 할지는 고민해봐야 할 일이다.

물론 빅데이터와 AI는 사람들의 취향에 맞춰 보다 양질의 데이터를 공급하고 있지만 이 역시 한계는 존재한다. 데이터화로 정보 제공은 평준화되는 반면에 개별 사용자의 취향은 점차 축소되기 때문이다. 즉 넷플릭스와 같은 볼거리 넘치는 OTT 서비스는 자신이 시청한 프로그램을 기반으로 비슷한 프로그램을 시청한 다른 이용자들의 정보를 취합해 내 취향에 가까운 프로그램을 추천해주지만, 이렇게 취향이 편중화된 가이드가 모든 사람들을 만족시킬 수는 없다. 이처럼 이제 우리에게는 데이터를 효율적으로 분석해야 하는 역량이 필요하게 된 것이다. 실제로 최근 콘텐츠 큐레이션, 지식 큐레이터란 직업과 서비스가 늘어나기 시작한 것도 개개인의 취향에 맞춰 보다 세밀해진 지식을 얻고자 하는 수용자들의 니즈에 맞추기 위함이고 이는 기본 룰이 되고 있다. 실제로 사람들은 모든 정보를 수용할 필요보다는 대체적인 흐름을 파악할 정도면 충분하다고 여긴다. 이에 따라 일부 지식은 더욱 더 세밀하게, 또는 재미있게, 보기 쉽고 간략하게 제공되고 있다. 최근 언론사들이 제공하는 ‘클립뉴스’나 ‘카드뉴스’도 수많은 정보 콘텐츠를 수집, 요약해 영상·이미지 등으로 재편집한 일종의 큐레이션 서비스라 할 수 있다.

한편 한층 확대된 전문 서비스들도 있다. 콘텐츠 구독 서비스 시장에 뛰어든 콘텐츠 플랫폼 ‘퍼블리’는 지식 콘텐츠 스타트업으로 시작해, 현재는 ‘일하는 사람을 위한 콘텐츠 플랫폼’을 지향하는 브랜드다. 대체로 출퇴근 길, 사무실에서 잠시 비는 시간에 틈틈이 이용하기 좋은 분량들로, 콘텐츠는 멤버십, 기간별 월정액 구독을 통해 이용이 가능하다. 사실 현대를 살아가는 디지털 기반 사람들은 새로운 트렌드의 흐름을 알고 싶어 하고, 다른 전문 분야의 지식에 목 말라 있다.

저명한 전문가들이나 전문 플랫폼들이 소개하는 콘텐츠는 사람들의 지적 호기심을 충족시켜줄 뿐만 아니라 최근엔 유튜브나 SNS 등 각종 매체를 통해서도 지식, 콘텐츠 큐레이터의 채널과 서비스가 확대되면서 몰랐던 내 취향을 알아갈 수 있는 기회도 한층 많아졌다. 즉 내 취향에 맞춰 한층 정제된, 새로운 정보의 바다인 데이터 속에서 내게 맞는 지식 콘텐츠들을 선택하는 시대가 된 것이다. (매일경제 재인용) 이른바 정보 데이터의 겉으로 드러난 모습이라고 이해하면 맞을 것이다.

위의 경우들은 소비자 또는 고객들을 위한 맞춤형 큐레이션 서비스라고 할 수 있다. 그러나 실은 이러한 맞춤형 결과를 얻기까지 정보의 바다인 빅데이터 분석이나 알고리즘별로 누적된 고객들의 이벤트, 혹은 로그 상태 등 정보 클라우드 내 여러 데이터와 인프라가 복잡하게 얽혀 있는 실마리를 풀고 또 이 실마리 속에 어떠한 문제가 있을지에 대해 노심초사하는 인프라 시스템 관리 영역이 내재되어 있다. 대부분 클라우드 시스템 내의 실시간 모니터링을 통해 고객 맞춤형 데이터를 얻기까지 여러 분산된 기기들의 IP 연계와 함께 네트워킹된 부분을 포함해 모든 디바이스를 모니터링 하지만, 미처 예상치 못한 미지의 문제들이 발생할 사각지대가 있다. 따라서 이러한 시스템 상의 여러 문제들을 사전에 알아채기 위한 연구와 방법들이 최근에 ‘관찰가능성’이라는 용어로 진화하고 있다.

주식 분야를 사례로 들자면, 지난 2020년 3월 대부분의 사람들이 레딧(Reddit)의 ‘r/wallstreetbets (위험 투자를 하는 사용자들이 모여 정보를 공유하는 주식 게시판)’가 무엇인지 또는 게임스톱(GameStop) 주식이 얼마에 거래되는지 모르던 시절, 당시 인기 주식 거래 앱인 로빈후드(RoBinhood)는 잦은 서비스 중단으로 고군분투하고 있었다. 이는 분명히 비즈니스에 좋지 않았다. 그것은 로빈후드가 자사 시스템을 통해 이뤄지는 모든 거래에서 소액의 수수료를 받고 있었기 때문이다. 또한 인터넷을 통해 주식 거래를 합리화하려는 기업으로, 로빈후드의 평판에도 좋지 못했었다. 심지어 잦은 서비스 중단은 고점에서 매도하지 못하거나 저점에서 매수하지 못해 불만을 품은 사용자들의 소송으로 이어질 수도 있었던 문제였다.

당시 로빈후드의 공동 창업주 바이주 바트와 블라디미르 테네프(2020년 3월)는 여러 차례 발생한 서비스 중단은 인프라에 가해진 전례 없는 부하 때문’이라고 공식 블로그를 통해 밝혔다. 하지만 이는 인프라에 가해지는 부하가 고객에게 영향을 미치기 전 부하가 발생하는 문제를 찾아내거나, 혹은 최소한 이런 사건의 범위를 제한할 수 있는 역량이 필요하게 됐음을 시사한다. 국내에도 로빈후드와 같은 주식매매 기업이 웹/모바일 클라우드 기반 소프트웨어의 복잡성을 통해 디지털 서비스를 효과적으로 확장하고 있다. 그러면서 이러한 일이 종종 발생하게 되리라는 예상도 하게 되었지만, 오늘날 기업들은 이러한 복잡성으로 인해 예측하거나 즉시 해결하기 어려운 병목 현상과 종속성이 발생한다는 것을 분명히 알고 있어야 한다. 실제로 우리 주변에서도 은행권의 전산 마비로 인해 금융거래가 막혀 일어나는 손실이 비일비재했다. 최근 모바일과 같은 무선 통신 네트워킹 문제로 인한 KT 인터넷 장애로 점심시간대 카드 거래가 먹통이 되어 소상공인들에게 엄청난 혼란을 초래한 사태 역시 로빈후드처럼 예상치 못했던 경우들이었다.

이는 앞서 언급된 박물관이나 전시장에서의 도슨트, 넷플릭스의 고객 취향 프로그램 찾아주기, 퍼블리의 지식 콘텐츠 구독 비즈니스와는 다르다. 빅데이터와 AI 연계 프로그램으로 특정 고객의 웹, 모바일 내에서 동선을 추적하여 얻어진 정보 데이터로 가입자에게 제공하는 서비스와 달리, 레딧(Reddit)의 ‘r/wallstreetbets 같은 경우는 그 리스크의 강도가 다르다. 즉 고객 개개인의 수 많은 주식 거래에 대한 클라우드 기반 SW 복잡성으로, 잦은 서비스 중단은 고객 신뢰로 얻어진 모바일 상의 어플리케이션 파워가 신뢰를 잃게 되는 매우 리스크가 높은 문제이다. 그저 고객 취향의 프로그램 찾아주기와 같은 넷플릭스 수준이 아닌 것이다.

이러한 문제들은 SW 비즈니스 분야 종사자들도 이미 인지하고 있던 터라, 최근에 이르러 관찰 가능성 또는 옵저버빌리티(Observability)라고 부르는 용어가 등장하게 되었고 분산된 인프라를 관리해야 하는 당면과제로 부상하게 되었다. 아마도 이는 2022년 기업 내부 인프라 관리 분야의 첫 번째 이슈가 될 것으로 판단된다.

매일 수천 개의 마이크로서비스, 수백 개의 릴리즈, 수십만 개의 컨테이너가 생성되는 상황에서 인간의 눈이 이 어마어마한 복잡성에 대처할 방법은 거의 없어 보인다. 그러나 대규모로 분산된 시스템에서 생성되는 엄청난 양의 데이터를 데이터 사용자나 고객, 소비자가 영향을 받기 전에 충분히 신속하게 문제를 파악하고 대응할 수 있는 방법을 찾아내는 것은 그만큼 가치 있고 중요한 것이다.

네트워크/애플리케이션 모니터링 전문 기업 가트너의 애널리스트 조쉬 체스맨은 ‘컨테이너와 마이크로서비스는 너무 복잡하다. 인터랙션도 매우 방대하다. 이를 이해하기란 사실상 불가능하다. 더 많은 도구를 추가하면 데이터가 더 많이 늘어나고 그 누구도 모든 데이터를 살펴볼 수 없게 된다. 모래사장에서 바늘 찾기다.’라는 말을 했다. 이를 통해 관찰 가능성이 중요하다는 걸 느낄 수 있을 것이다. 더구나 코로나19 사태로 인해 클라우드 이용이 전반적으로 증가했는데, 이는 점점 더 많은 기업이 클라우드에 수반되는 복잡성을 모니터링하고 해결하게 될 방법을 찾아야 할 것이란 의미도 담겨있다. (CIO Korea 재인용) 결국 우리 고객들 취향에 맞는 프로그램을 제공하는 서비스는 복잡한 SW 내부 인프라 상의 여러 문제를 미리 찾아내어 해결한 후에 비로소 제공하게 되는 정보 데이터 내부의 깊은 미로를 통과하는 것과 같은 것이다.

즉 관찰 가능성은 출력된 정보 등을 토대로 시스템의 내부 상태를 측정하는 능력인데, 복잡한 현대식 시스템에서는 예상치 못한 고장의 가능성이 증가할 뿐만 아니라 가능한 고장 모드의 수도 증가하고 있다. 이러한 추세에 대응하기 위해 IT, 개발 및 운영 팀은 시스템 자체를 볼 수 있는 모니터링 도구를 구현했다. 하지만 이는 ‘알려진 미지’(이미 알고 있는 위험)를 식별하는 데에는 도움이 될 수 있으나, 알 수 없는 미지(완전히 예상치 못한 위험, 모니터링을 할 수 없는 위험)를 처리하는 데는 도움이 되지 않았다. 바로 이것이 문제가 된다는 것이다. (ServiceNow 재인용) 특히 관찰 가능성이 중요한 또 다른 이유는 소프트웨어가 날이 갈수록 점점 더 복잡해지고 있고 마이크로 서비스, 다중 언어 지속성 및 더 큰 컨테이너를 복잡하고 더 작은 시스템으로 계속 분해 중이기 때문이다. 또 동시에 제품의 양이 증가하고 있다 보니 새롭고 혁신적인 작업을 수행할 수 있는 플랫폼과 방법이 많아진 탓도 있다. 이렇게 복잡하게 얽혀 있는 플랫폼들과 분산된 여러 인프라에서 발생하는 모든 정보 데이터의 복잡한 문제들을 관찰 가능한 시스템이 없다면 문제의 원인을 알 수 없을 뿐만 아니라 기본적인 규칙조차 세우지 못한 상태로 비즈니스를 시작해야 하는 오류를 남기게 될 것이다.

오늘날 무분별하게 생산된 정보 데이터의 홍수 속에서 사람들은 오히려 ‘결정 장애’에 빠지게 되었다. 어떤 것이 정말 내가 원하고 필요한 정보인지, 또는 나의 구매 행동이 합리적인 소비인지에 대해 쉽게 판단 내리지 못하고 선택의 갈림길에서 고민하고 있다. 더군다나 인터넷과 모바일 이용 확산으로 정보 접근성이 높아 더 많은 선택지를 마주하게 된 현대인들은 바쁜 일상과 맞물리며 정보가 그대로 스트레스가 되는 상황이 연출되고 있다. 지금은 이렇게 많은 정보 속에서 진정으로 나에게 필요한 정보가 무엇인지를 ‘큐레이션’ 해야 하는 상황이다. 그리고 이러한 정보가 진정성 있는 데이터로 서비스되기까지 클라우드 내부의 복잡한 SW 인프라 등의 문제가 한꺼번에 수면 위에 떠 있는 상황에서 마케터들은 어떤 판단을 내려야 할까?

누구도 예상할 수 없는 미지의 길을 가야 한다면 겉으로 드러난 모습 즉 큐레이션을 앞세운 데이터의 편리한 서비스 이면에 감추어진 시스템 내부를 더욱 세밀하게 관찰하고 분석하려는 노력이 미지의 알 수 없는 문제들을 사전에 차단할 수 있는 해답이 아닐까 싶다. 편리함 뒤에 감추어진 데이터의 또 다른 모습에서 데이터의 진정성을 이해한다면, 우리들은 다양한 선택지들 중에서 그래도 최선 혹은 차선의 올바른 결정을 내리지 않을까?

Gil Park님의 브런치에 게재된 글을 모비인사이드가 한 번 더 소개합니다.