비대면과 디지털로 생활 환경이 변화하면서 우리는 ‘음성 인식‘ 기반의 기술에 더욱더 익숙해지고 있습니다. 손끝에서 시작했던 인터넷 세상도 이제는 입술 끝에서 시작하죠. 뉴스나 날씨 등 원하는 정보를 실시간 검색을 통해 알려주기도 하고, 차 안에서는 내가 원하는 목적지를 말하기만 하면 내비게이션이 최적의 경로를 안내해줍니다. 스마트 홈 기기를 제어해 전등을 켜거나 음식을 주문하거나 쇼핑을 하는 것까지 모두 우리의 목소리, 말로 가능합니다.

음성인식 기술 기반의 AI 스피커 또는 스마트 스피커의 보급량 또한 가파른 성장을 보입니다. 이동통신 3사를 통해 판매된 스피커만 해도 2020년 3월 기준 861만 대(누적)로 전년 대비 45.7% 증가했다고 하니, 전체 보급량은 이보다 높은 수치를 예상할 수 있겠죠.

 

 

음성 인식 기술은 어떻게 작동할까?

 

음성 인식 기술로 작동되는 기계들은 사람처럼 우리의 말을 듣고 이해해 대답하는 것 같지만 사실은 완전 다른 과정으로 진행되죠. 시리나 빅스비와 같은 가상 비서들은 딥러닝 기반의 자연어 처리(NLP) 기술을 통해 사람의 언어를 이해합니다. 수많은 자연어 데이터를 처리하고 분석하기 위해 다음과 같은 과정을 거치게 되죠.

 

  1. 사용자가 호출어와 함께 스마트폰의 가상 비서나 AI 스피커에 말을 합니다.
  2. 기계는 STT (speech-to-text) 기술을 통해 사용자의 음성을 텍스트로 변환합니다.
  3. 기계는 NLP 기술을 통해 데이터를 처리합니다.
  4. 기계는 TTS (text-to-speech) 기술을 통해 처리한 텍스트를 오디오로 변환합니다.
  5. 변환된 오디오를 송출해 사용자에 응답합니다.

 

이 과정은 굉장히 간단해 보일 수 있지만, 기계의 입장에서 인간의 언어는 이해하기 매우 어려운 영역입니다. 문장의 형태소(morphological) 분석, 구문(syntactic) 분석, 의미(semantic) 분석, 화용(pragmatic) 분석 등을 통해 문장의 의미를 파악하죠. 기계가 인간의 언어를 이해하기 위해서는 컴퓨터 공학, 인공지능, 언어학 등이 복합적으로 영향을 주기 때문에 NLP 기술은 매우 복잡하고 정교합니다.

 

 

자연어 처리 과정에서의 어려움은?

 

음성 인식 기술은 최근 몇 년간 빠르게 발전해왔습니다. 하지만 완벽하지는 않죠. 90% 이상의 정확도를 자랑하는 음성 인식 기기도 신조어나 줄임말, 비슷한 발음의 단어 등은 여전히 구별하지 못하는 경우가 많습니다. 정확도를 높이고 사용자 편의까지 제고하기 위해 아직 넘어야 할 산이 많습니다.

우리에겐 자연스럽고 당연하게 느껴지는 언어의 특징인 ‘역사성‘은 인공지능이 언어를 배우기 더 어렵게 만드는 점이죠. 특정 단어나 표현은 문맥에 따라 의미가 다르게 쓰이기도 하고 시대에 따라 새로운 의미를 얻기도 하기 때문입니다.

여기에 더해 자연어 처리와 음성 인식 기술에 있어서 가장 어려운 점 중 하나는 개인의 독특한 언어 습관을 이해하는 것입니다. 한국어는 발음 법칙이 복잡하고 변화나 예외가 많아 더욱 인식하기 어렵다고도 하죠. 한국어의 4대 문장 시작요소가 ‘아니, 근데, 솔직히, 진짜‘라는 유머 글이 큰 공감을 얻었는데요. 이렇게 부정의 의미를 지닌 ‘아니’라는 말은 문장에 전혀 영향을 주지 않는 추임새로 쓰이기도 합니다.

 

 

하지만 음성 인식기가 이해를 잘못해 ‘부정문’으로 받아들인다면 전체 문장의 의미가 달라지겠죠. 음성 인식은 많은 사람이 사용하는 기능이므로 지역적, 사회적으로 다르게 쓰는 말투나 억양, 언어적 습관까지 어느 정도 수용할 수 있어야 합니다.

이러한 점들을 고려할 때, NLP 알고리즘에서 정확도를 높이려면 실제로 사용되는 다양한 언어 패턴을 분석해 이해할 수 있도록 데이터를 학습하도록 만들어야 합니다. 결국 이 기술에서 가장 필수적인 것은 방대한 언어 데이터라는 뜻이 되겠죠. 지역적, 사회적인 방언이나 주변 소리가 섞인 음성, 자주 틀리는 문법이나 뒤바뀐 구조로 말하는 문장 등을 포함한 AI 학습용 데이터는 음성 인식기의 성능을 개선합니다. 학습용 데이터를 많이, 다양하게 확보할수록 비즈니스에 활용할 음성 인식 기술의 정확도 또한 더 높일 수 있다는 뜻이 됩니다.

 

 

음성 인식 솔루션을 위한 필수적인 데이터, 어디에서 찾을 수 있을까?

 

많은 기업이 서비스에 음성 인식 기술을 도입하고 있습니다. 더불어 고품질의 음성 데이터에 대한 수요도 자연스럽게 증가하고 있죠. 플리토는 데이터 수집을 위한 세계 최대 규모의 크라우드 소싱 플랫폼을 운영하고 있습니다. 인공지능 학습에 필요한 코퍼스, 음성, 이미지 등 언어와 관련된 다양한 형태의 데이터를 25개 이상의 언어로 수집하고 구어체, 의료, 법률 등 많은 종류의 도메인을 다룹니다. 플리토는 1천만 플랫폼 사용자와 함께 일일 평균 3,500분가량의 음성 데이터를 구축할 수 있습니다. 원어민이 말하는 영어 음성, 전라도 사투리 구사자의 음성 등 기업의 구체적인 니즈에 맞게 데이터를 구축합니다.

우리의 삶을 편리하게 하는 인공지능. 하지만 데이터 없이는 인공지능, 머신러닝의 미래를 기대하긴 어렵습니다. 수많은 데이터를 활용해 NLP 모델을 교육하는 것만이 정확한 인공지능을 만들기 위한 일차적인 솔루션이라고 할 수 있죠. 고품질의 데이터를 학습시킨 정확한 음성 인식 솔루션으로 여러분의 서비스의 사용자 경험을 한층 더 높여보시기 바랍니다.

 

 

플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.