인공지능 제품이나 서비스를 떠올릴 때, 너무 당연하다고 인식되는 기능이 있죠. 바로 ‘음성인식’입니다. 음성인식 기술은 최근 빠른 발전을 이뤄냈고 우리에게 편리함을 제공해주고 있습니다.

 

 

“열려라 참깨!”를 외치면 동굴 문이 열리는 이야기, 상상은 현실이 되다

 


스마트폰의 음성 기반 인공지능 비서는 이름만 불러도 기다렸다는 듯 인사를 건넵니다. 차 안에 한 대씩은 있는 자동차 내비게이션은 물론 인공지능 스피커도 최근에는 흔히 볼 수 있게 되었죠. 덕분에 말 한마디를 건네서 날씨나 지리 정보를 쉽게 얻을 수 있고 기계와 농담까지 주고받을 수 있게 되었습니다.

이렇게 음성인식 제품들은 기술과 사람을 더 가깝고 친근하게 만들어 줍니다. 사람에겐 너무도 간단한 대화를 음성인식 제품들과 나눌 때, 사실 그 안에서는 꽤 복잡한 일들이 벌어지고 있답니다. 이번 글에서는 인공지능 기반의 음성인식 제품이 어떻게 사람의 말을 듣고 이해해서 반응하는지, 그 무대 뒤의 이야기를 알아보도록 하겠습니다.

 

 

 

기계는 어떻게 사람의 말을 이해할까?


우리가 인공지능 기반 음성인식 제품에 말을 하면, “음성 입력 및 인식 → 자연어 처리 → 인식 결과”의 단계를 거칩니다. 기계가 사람의 언어를 인식하고 이해하기 위해 필요한 과정이죠.


첫 번째 과정에서는 음성 입력 과정을 거쳐 사람의 음성을 컴퓨터가 이해할 수 있도록 텍스트화합니다.

이 기술을 STT(Speech To Text)라고 하는데요. 어린아이가 받아쓰기를 하듯이 사람의 음성을 텍스트로 옮기는 것입니다. 주변 소음을 제외한 말소리를 파악하고 이어서 각 발음과 단어를 인식한 후 핵심어와 연결 단어를 인식해 입력해야 하므로 생각보다 간단하고 쉽지만은 않습니다.

두 번째는 자연어 처리(Natural Language Processing, NLP) 과정입니다. 자연어란 사람이 의사소통을 위해 사용하는 언어입니다. 자연어 처리란 컴퓨터가 자연어를 분석하여 이해하고 처리하는 기술이죠.

이 과정에서는 자연어에 대한 형태소 분석, 구문 해석, 의미 분석, 화용 분석 등을 통해 컴퓨터가 문장에 담긴 의도를 파악하게 합니다. 이 자연어 처리는 인공지능의 주요 분야입니다. 인공지능 기계가 사람의 언어를 얼마나 잘 파악하였는지를 알 수 있는 과정이죠.

앞선 과정을 거쳐 마지막으로 기계는 인식 결과를 내놓습니다. 인식된 요청에 따라 가장 최적의 결과를 찾아내고, TTS(Text to Speech) 기술을 통해 사람의 말소리처럼 응답하는 것이죠. 친구에게 메시지를 보내라고 말했다면 전달한 내용으로 메시지를 전송하고, 날씨를 물어봤다면 인터넷에서 위치 기반의 날씨를 검색해 대답해줍니다.

간단하게 “지금 미국은 몇 시야?”라고 질문하고 답을 받았을 뿐인데, 사실은 기계는 굉장히 빠르게 우리의 말을 분석하고 이해해서 그에 맞는 반응을 보인 것입니다.

 

 

 

빠르게 발전 중인 음성인식 기술, 한계를 넘어서

 

앞서 언급하였듯이, 음성인식 기술은 인공지능 딥러닝 기술이 뒷받침되어 최근 크게 발전하였습니다.

많은 양의 데이터를 컴퓨터에 입력시키고 학습시킨 뒤 자연어 처리를 통해 사람의 언어를 제대로 이해하고 반응하게끔 만듭니다.

인공지능의 자연어 처리 기술의 진화에 따라 더 똑똑한 음성인식 서비스가 탄생할 수 있는 것입니다. 많은 발전을 이룬 음성인식 기술이지만, 아직도 한계는 존재합니다.

사람마다 발음, 억양, 톤이 다르고, 또 일상 대화에서는 문법에 어긋난 문장도 많고 주변의 소음도 섞이는데요. 현재는 기술이 이 모든 것을 구분해 인식하지 못하기 때문에 음성인식의 정확도에 대한 이슈가 있는 상황입니다. 이러한 한계를 극복하기 위해서는 더 많은 데이터를 확보하여야 합니다. 주변 소음이 담겨있는 음성이나 우리가 일상생활에서 쓰는 구어체 음성, 의미는 통하지만 문법에 맞지 않는 문장에 대한 음성 등 다양한 음성 언어 데이터를 확보해야 인공지능의 음성인식 기술 성능을 향상시킬 수 있습니다.

음성인식 기술이 더 사람에 가까워지기 위해서는 방대한 양의 정확도 높은 데이터가 필요합니다. 인공지능 학습에 법률, 스포츠, IT, 대화형 등 다양한 분야와 형태의 음성 데이터가 활용될수록, 인공지능은 사람의 목소리를 더 정확히 인식하여 이해하게 될 것입니다.

 

 

덧붙여


음성인식 기술을 활용되는 데이터. 수집하기도 어렵고 비용도 만만치 않은 것이 현실입니다. 원활한 데이터 활용을 위해 정부가 기업을 지원하는 ‘데이터바우처 지원사업’이 현재 진행중입니다. 플리토 또한 ‘데이터 공급기업’으로 2년 연속 참여해 언어 데이터를 제공합니다. 음성인식기, 다국어 음성 리모콘, 음성인식 내비게이션 등 음성인식 제품이나 음성 검색을 제공하는 서비스 개발을 원하는 기업들이라면, 데이터바우처 지원사업의 ‘데이터 수요기업’으로 참여해 큰 도움을 받을 수 있습니다.

한국데이터산업진흥원 또는 플리토에게 문의하시면 더 자세한 내용을 확인할 수 있습니다.

 

 

 

플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.