우수한 성적을 받기 위한 확실한 방법은 무엇일까요? 일정 시간 동안 정확하고 올바른 학습 교재를 활용해 공부해야 합니다. 아무리 오랜 시간, 많은 양을 공부하더라도 엉터리 정보를 학습한다면 좋은 성적을 받기는 어렵습니다.

이는 인공지능에도 동일하게 적용됩니다. 인공지능은 데이터를 바탕으로 머신러닝, 딥러닝 등의 학습 방식으로 특정 결과를 만들어내는 기술입니다. 이때 인공지능에게는 학습 교재인 데이터의 양과 질이 중요하죠. 이렇게 꼭 필요한 데이터, 어떻게 수집할까요? 일각에서는 ‘언어 데이터’, ‘텍스트 데이터’라고 하면 인터넷 웹사이트에서 쉽고 빠르게 누구나 수집할 수 있다고 생각합니다. 하지만 데이터에도 ‘저작권’이 존재한다는 점, 아셨나요?

 

저작권이란?


데이터에 저작물이 포함된 경우는 저작권 침해의 문제가 발생할 수 있습니다. ‘저작물’이란 문학 · 학술 또는 예술의 범위에서 인간의 사상 또는 감정을 표현한 창작물을 말합니다. 저작권(copyright)이란 이 창작물에 대하여 창작자가 취득하는 권리를 일컫습니다. 저작물 복제, 전송 등의 행위를 위해서는 저작권자의 동의를 받아야만 합법적으로 활용할 수 있죠. 

국내에서는 인간의 사상이나 감정을 표현한 창작물이 아닌 ‘비저작물’이나 국가 또는 지방자치단체가 공표한 저작물과 같은 ‘공공저작물’에 대해서는 저작권 침해에 대한 걱정이 없습니다. 하지만 그 이외의 저작물은 저작권법에 따라 보호를 받기 때문에, 데이터 수집 과정에서 ‘저작권 침해’의 문제가 생각보다 쉽게 발생합니다.

 

데이터 수집 방식과 저작권 보호


오프라인의 삶만큼 비중을 크게 차지하는 온라인 환경에서 우리는 많은 자료를 읽거나 듣게 됩니다. 이렇게 쉽게 접하는 ‘언어’ 관련 데이터 또한 마음대로 사용할 수 없습니다. 앞서 말한 저작권 침해의 문제 때문입니다. 언제 어디서나 쉽게 읽을 수 있는 뉴스 기사도 저작권자가 해당 언론사(또는 기자)이므로 무단으로 데이터를 활용하면 안됩니다. 많은 사람이 사용하는 블로그나 페이스북 등 소셜미디어의 콘텐츠도 소유자/작성자와의 협의 없이 상업적으로 사용하거나 배포한다면 저작권법에 위반될 수 있습니다. 인공지능 학습에 필수적인 인간의 말 ‘언어’에 대한 데이터도 웹 크롤링, 무분별한 수집 행위를 통해 확보해서는 안 됩니다.

데이터가 인공지능을 위해 점차 중요해짐에 따라 전문으로 데이터를 수집하고 가공하는 기업들도 늘어나고 있습니다. 이러한 기업들은 어떻게 데이터를 모으고 있을까요? 최근 ‘크라우드 소싱’이라는 방식이 많이 활용되고 있습니다. 앱 또는 웹 기반의 플랫폼을 통해 지역, 국가와 관계없이 다양한 사람들에게서 데이터를 수집할 수 있다는 장점이 있기 때문입니다. 또 코로나 19로 인해 급격히 비대면화된 생활 방식에 적합하기도 합니다. 이렇듯 다수의 참여자가 데이터를 만들 때 저작권 보호에 대한 기준이 불명확해지기 쉽습니다. 하지만 어떠한 방식으로 데이터가 생성되더라도 데이터의 소유자는 존재하고, 이에 걸맞게 저작권 보호에 대한 논의는 이루어져야 합니다.

크라우드 소싱 방식을 적극 활용하는 대표적인 기업인 플리토에서는 유저들에게 저작권에 대해 사전 안내하고 데이터를 수집하고 있습니다. 번역 데이터를 수집하는 ‘아케이드’ 서비스에서 언어 퀴즈를 풀기에 앞서 데이터 활용에 대한 안내를 받게 되죠. 해당 안내를 필수적으로 거침으로써 플리토는 유저들로부터 데이터 활용에 대한 동의를 구하고 언어 데이터를 확보합니다. 그리고 유저들은 데이터 제공의 보상으로 현금화 가능한 포인트를 받아갑니다. 권리에 대한 안내와 보상 체계를 만들어 서비스를 운영하고 꾸준히 개선해 나가고 있습니다.

 

맺으며


최근 인공지능의 핵심인 ‘데이터’ 산업이 주목받는 만큼 많은 발전이 기대됩니다. 하지만 초기 단계이다 보니 인식과 제도가 부족합니다. 저작권이나 관련 법률에 대한 개념 없이 데이터를 무차별적으로 수집하는 경우도 있어 혼란스러운 상황이죠. 이제는 데이터의 저작권에 대해 더욱 주의 깊게 다뤄져야 할 때입니다. 개인의 입장에서는 타인의 데이터를 활용하거나 본인의 데이터를 제공하기 위해 저작권에 대해 올바른 인식을 가져야 합니다. 또 데이터를 공급받는 기업은 저작권 안내와 함께 데이터 수집에 대해 알맞은 보상 체계를 확립하는 것 등의 준비가 필요합니다. 최근 관련 기술 발전과 함께 데이터를 상업적으로 활용할 수 있는 범위가 커지면서, 데이터는 이제 일종의 자산으로 자리잡게 되었습니다. 이러한 변화에 맞춘 인식 변화로 데이터의 저작권이 보다 철저히 지켜질 수 있길 바랍니다.

 

플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.