세상을 더 잘 이해할 유일한 방법은
그것의 데이터를 모으는 것입니다. 
– Steven Pinker

이 세상에는 수많은 데이터가 존재하고 있고 우리는 그 데이터를 통해 세상의 흐름을 이해할 수 있다. 더군다나 ChatGPT로 대표되는 수많은 생성형 AI들은 유용한 소스(데이터)만 있으면 알아서 분석하고 판단하고 제안까지 해준다. 그럼 세상을 더 잘 이해하기 위해, 조금 더 좁게는 당장 우리가 하는 일에 도움을 받을만한 수 많은 데이터들을 어떻게 하면 확보할 수 있을까?

 


공공데이터 포털

첫번째로 소개하는 사이트는 대한민국 공공데이터 포털이다. 공공행정부터 교육, 교통, 농축수산, 문화관광, 식품건강까지 총 16개의 분류체계를 가지고 있으며 다운로드 및 API를 가져다 사용할 수도 있도록 정리되어 있다.

제공기관도 공공기관, 위원회, 교육기관, 입법/헌법기관까지 다양한 기관에서 데이터를 제공하고 있어 정말 공공데이터 ‘포털’이라고 불릴만 하다. 그리고 공공데이터 포털에는 국가중점데이터라는 민간에서 활용하기 용이한 데이터를 중점적으로 관리를 하고 있어 관련하여 보다 상세한 데이터들을 제공받을 수 있다. 

https://www.data.go.kr/index.do

 


한국 통계청

한국의 흐름을 확인하고 관리하는 한국 통계청에서 제공하는 데이터라면 얼마나 다양한 정보들을 제공하고 있을까? 공공데이터 포털이 특정 카테고리에서 각 기관에서 제공한 자세한 데이터를 얻을 수 있다면, 한국 통계청은 한국의 인구 총조사, 경제활동 인구조사, 소비자 물가조사, 사회조사, 교육비조사, 건설경기동향조사 등, 정말 한국의 현재를 읽을 수 있는 자세하고 풍부한 데이터들로 구성되어 있다. 현재 한국 사회를 이해하는데 있어서는 필수적으로 들여다보아야 하는 정보들로 가득하다.

 

https://kostat.go.kr/

 

국가통계포털

통계청에서 제공하고 이씨는 서비스로 대한민국의 정말 다양한 통계들을 제공해주고 있다. 그리고 실험통계 등 재미있는 시도들도 많이 하고 있어서 데이터를 좋아하는 분들이라면 이 사이트에서 이것저것 만져보시다가 시간가는 줄 모를 듯(예를들면 통계로 시간여행, 해석남녀, 나의 물가 체험하기 등 재미있게 시각화해둔 자료들이 많이 있다), 아이들과 교육용으로 함께 둘러보아도 좋을 것 같다.

 

https://kosis.kr/

 

Kaggle

국내에서도 유명한 사이트 중 하나로는 Kaggle을 지나칠 수는 없을 것 같다. Kaggle은 데이터 사이언티스트들, 그리고 머신러닝 엔지니어들을 위한 온라인 커뮤니티 서비스인데, 머신러닝을 조금이라도 공부해보신 분이라면 이 사이트에서 타이타닉 데이터셋을 구하고 또 생존자를 예측하는 테스트를 해보셨을거라 생각한다. 물론 생존자 예측 경진대회까지 참가를.. 🙂 

해당 사이트의 데이터는, 컴퓨터사이언스, 교육, 분류, 컴퓨터비전, NLP, 데이터시각화, Pre-trained 데이터 등으로 나뉘어 있고, 좀 더 구체적으로는 아래와 같은 데이터들이 잘 정리되어 있다.

  • 사우디아라비아의 인구수
  • 학생들의 테스트 데이터
  • 미국 주소 데이터셋
  • 코로나일 때 건강한 다이어트 식단 데이터
  • 23년 글로벌 유튜브 통계
  • 23년 가장 많이 플레이된 스포티파이 노래 등

이 외에도 재미있는 데이터들이 많으니 둘러보셔도 좋을 것 같다.

https://www.kaggle.com/datasets 

그리고 데이터에 대해 진심인 다른 나라들의 사례들 또한 정리해보았는데, 이 나라들의 공통점은 데이터에 대한 철학, 그리고 원칙들을 보다 명확히 정의해두었다는 생각이 들긴했다. ‘오픈데이터’라는 원칙인데, 이는 아래와 같다.

오픈 데이터에 대한 원칙

  1. 공공데이터를 개방한다
  2. 데이터의 품질과 양을 중요시한다
  3. 모두가 사용할 수 있다
  4. 거버넌스 개선을 위해 데이터를 개방한다
  5. 혁신을 위해 데이터를 개방한다

 


Data.gov.uk

간결하고 필수적인 UI로 이루어져 있으며, 비즈니스, 정부, 사회, 건강, 지도, 교육 등 영국의 전반적인 데이터들을 확인할 수 있다. 기관별로 필터링 해서 결과를 좁힐 수도 있고, 토픽별, 포맷별로도 좁혀가며 데이터를 확인할 수 있다.

 

https://www.data.gov.uk/

 

Data.gov

뭐랄까. URL을 보면 gov뒤에 아무런 확장자가 없다. (보통 영국은 gov.uk, 호주는 gov.au 등 뒤에 나라를 표기하는 확장자들이 있기 마련) 이것이 천조국의 위엄인가.. 아무튼, 미국의 오픈데이터 역시 업데이트도 잘되어 있고 방대한 자료들을 찾아볼 수 있다. 뿐만 아니라 User Guide도 상세히 잘 정리해두어서 한번 읽어보고 시작해도 좋다.

 

https://catalog.data.gov/dataset

 

Australia Goverment Data

호주의 경우 국가적인 차원에서 데이터들을 잘 정제하여 공유를 하고 있다. 호주 해양과학청, 해양/기후센터, 호주연방 등의 자료들과, 5개의 주로 이루어져 있는 호주의 지역을 나누어 데이터를 소팅해서 볼 수도 있다. 포맷역시 pdf, html, csv 등의 데이터 유형을 나누어 볼 수 있으며 기간별로 로 세팅하여 자료들을 살펴볼 수 있도록 정리되어 있다. 호주에 대해서 궁금하다면 한번 조사해보도록 하자.

 

https://data.gov.au/home

 

가볍게 소개한 국가 외에도 참고하면 좋을만한 기관들이 있어 아래 추가해두었다. 개인적으로는 투박할지는 몰라도 독일 사이트가 개인적으로는 깔끔하고 맘에든다. 🙂

 

세상에는 정말 어마무시하게 많은 데이터들이 이미 존재하고 있는 듯 하다. 이 재료들을 활용하여 인사이트들을 얻고, 또 세상을 위한 멋진 서비스들을 만들어낼 수 있을지는. 바로 이 데이터들을 다루는 모든 사람들에게 달려있다고 생각한다. 모두 즐거운 데이터 여행되시기를 바라며..

 

Reference

https://ko.wikipedia.org/wiki/%EA%B3%B5%EA%B3%B5_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EA%B0%9C%EB%B0%A9 

https://data.gov/user-guide/ 

https://www.opendata.dk/ 

국내 통계청 사이트들

https://kostat.go.kr/

https://kosis.kr/index/index.do  

https://kosis.kr/common/meta_onedepth.jsp?vwcd=MT_ZTITLE&listid=O_22 

https://kssc.kostat.go.kr:8443/ksscNew_web/index.jsp 

https://kostat.go.kr/ansk/?aSeq=252261&ord=7 

 


해당 글은 글쓰는몽글C 님과 모비인사이드의 파트너쉽으로 제공되는 기사입니다.