비즈니스를 위한 데이터 활용, 이제는 선택이 아닌 필수적인 요소라고 할 수 있습니다.

기업은 시장, 고객 등을 정확하게 분석하고자 최대한 많은 리소스를 활용하고자 합니다. 과거에도 기업에서는 비즈니스 의사 결정을 돕기 위해 데이터를 활용해왔는데요. 일정 이상의 데이터를 처리하는 데 필요한 비용과 시간의 문제로 현실적으로 어려움이 많았습니다. 하지만 최근 기술이 점차 발달해 비정형 데이터까지 포함한 많은 양의 데이터를 처리할 수 있죠. 덕분에 빅데이터 활용도가 높아지면서 더욱 주목받게 된 것입니다.

이번 콘텐츠에서는 빅데이터가 무엇인지, 기업들은 어떻게 활용하고 있는지 살펴보겠습니다.

 

빅데이터는 무엇일까요?

 

 

빅데이터는 정형 데이터는 물론 수집, 저장, 분석 등이 어려운 비정형 데이터까지 모두 포함합니다. 디지털 환경에서는 생성되는 데이터는 규모 자체도 방대하지만, 생성 주기도 매우 짧고 형태 또한 다양하죠.

데이터는 형태의 유무, 연산 가능성에 따라 정형, 비정형으로 구분합니다.

먼저 정형 데이터는 틀이 잡혀 있는 체계화된 데이터입니다. 안정성이 높지만, 변형이 유연하지는 않죠. 구조가 정해져 있기 때문에 손쉽게 저장, 관리할 수 있습니다. 금융, 제조 등 대부분 기업이 업무용으로 보유하고 있는 데이터베이스가 정형 데이터에 속합니다.

그렇다면 비정형 데이터는 어떤 것일까요? 정형 데이터와 다르게 틀이 잡혀 있지 않은 데이터인데요. 이메일, 문서 등 텍스트는 물론 이미지, 음성, 영상, 소셜 미디어 콘텐츠나 댓글 등의 데이터를 포함합니다. 방대한 양, 다양한 형태의 데이터는 분석 처리 기술을 거쳐야만 활용이 가능해집니다.

PC 그리고 모바일 기기 이용이 늘어나면서 디지털 환경에 생성되는 데이터 또한 급격히 증가하였습니다. 전문가들은 데이터의 90%는 비정형 데이터라고 합니다. 빅데이터라는 원석을 기업이 알맞게 활용할만한 적절한 기술이 중요한 시점이죠.

 

 

빅데이터의 특징

 

빅데이터는 크기(Volume), 속도(Velocity), 다양성(Variety)의 특징을 가지고 있다고 미국의 시장조사 전문기관인 가트너(Gartner) 그룹이 정의했습니다. 데이터의 방대한 “양”, 그리고 적시성 있게 저장, 수집, 분석 등이 가능한 “속도”, 정형/반정형/비정형 데이터 등 “다양성”을 말합니다. 여기에 정확성(Veracity), 즉 데이터 퀄리티에 대한 신뢰성까지 꼽아 빅데이터의 4V 특징이라고 보편적으로 말합니다. 비즈니스, 연구 등에 유의미하다는 가치(Value)까지 더해 5V, 혹은 같은 데이터도 목적에 따라 다른 의미를 가지는 가변성(Variability), 데이터의 시각화(Visualization)까지 7V로 확장되기도 합니다.

 

 

빅데이터, 활용 사례는?

 

 

최근 빅데이터는 사회 전반에서 활용되고 있습니다. 소셜 미디어 빅데이터 분석을 통해 선거 결과를 예측하기도 하고, 감염병 발생 전후의 소비 패턴 변화 등을 살펴보기도 하죠. 이 밖에도 브랜드 및 경쟁사 분석, 소비 트렌드 분석을 통한 상품 개발, 마케팅 성과 측정, 위기관리 전략 수립 등에 활용되고 있습니다.

넷플릭스는 성공 요인으로 빅데이터를 꼽기도 했는데요. 넷플릭스는 사용자 분석을 위해 유저들의 시청 습관 데이터를 수집하고 분석합니다. 분석 결과 기반의 콘텐츠 추천은 물론, 시청자의 취향에 맞게 포스터를 선정해 콘텐츠 시청 가능성을 높이죠.

카드사에서는 구매 품목, 시점, 위치 등의 빅데이터를 활용해 성향을 파악하고 맞춤형 할인 혜택을 주는 경우도 있습니다. 은행 및 보험사에서는 보험 사기, 서버 침입 등 리스크 및 보안 관리를 위해 빅데이터를 시스템 운영에 활용하기도 합니다.

번역 엔진 또한 빅데이터를 활용한 사례입니다. 기계에 문법, 문장 구조 등을 가르치는 것이 아니라 언어 데이터를 입력해 처리하는 것이죠. 원문과 사람이 번역한 번역문 데이터를 수백, 수천 개 학습시켜 각 언어의 문장 구조, 언어 간의 번역 규칙 등을 스스로 파악하게 만듭니다. 이때 데이터가 많으면 많을수록 더 정확하고 자연스러운 번역 결과가 나오는 것이죠.

 

 

언어 빅데이터

 

언어 빅데이터는 코퍼스라고도 합니다. 한국어로는 말뭉치라고 불리는 코퍼스는 실제로 사람들이 소리 내서 말하거나 써낸 글을 모은 데이터입니다. 번역에 필요한 코퍼스는 번역 원문의 언어인 출발어와 번역문의 언어인 도착어를 묶어 병렬 코퍼스라고 합니다. 코퍼스는 학문, 연구, 교육 등에 쓰이는데요.

언어는 사용 목적과 상황에 따라 형태가 매우 다양하기 때문에 코퍼스는 필요에 따라 다양한 곳에서 수집됩니다. 책, 신문, 인터넷 뉴스, SNS 포스트, 상품이나 서비스의 이용 후기, 채팅, 에세이, 학술 논문, 노래 가사, 음성 대화 등 언어가 사용되었다면 모두 코퍼스로 수집, 저장되어 분석 처리 대상이 될 수 있어요.

코퍼스는 언어 처리 연구의 기초 데이터로 사용되고, 음성 인식 또는 다국어 번역 분야의 소프트웨어 개발에도 활용됩니다. 최근 고객 서비스 기업에서 많이 활용하는 챗봇은 물론이고 내비게이션이나 리모컨, 많은 인터넷 서비스에서 제공하는 음성 인식 기능에도 필요합니다. 서비스 정확도를 높이려면 많은 양의 코퍼스가 필요하죠.

플리토는 다국어 병렬 코퍼스, 다국어 음성 데이터, 다국어 이미지 데이터를 수집 및 구축합니다. 집단지성 플랫폼을 통해 데이터를 구축하기 때문에 무엇보다 속도와 양이 강점입니다. 또한 언어의 특성상 같은 말도 다르게 번역될 수 있는데, 전 세계 사용자로부터 데이터를 구축하기 때문에 언어의 다양성도 확보할 수 있죠. 3차, 많게는 7~8차까지도 집단지성 검수가 진행되어 데이터 정확도가 높다는 것도 자랑할만한 강점입니다. 텍스트, 이미지, 음성 등의 데이터가 필요하다면, 글로벌 사업을 위해 다국어 코퍼스가 필요하다면 이젠 플리토를 찾아주시기 바랍니다.

 

 

 

플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.