출처 : METR

 

 

AI 연구 기관 METR이 발표한 글이 눈에 띕니다. 제목은 ‘Measuring AI Ability to Complete Long Tasks(긴 작업을 수행하는 AI 능력 측정)’입니다.

 

내용은 이렇습니다. AI가 자율적으로 완료할 수 있는 작업의 길이(인간 전문가 기준 시간)를 지난 6년간 쭉 추적해 보니, 약 7개월마다 2배씩 증가해 왔다는 겁니다. GPT-2는 몇 초 걸리는 작업도 못 했고, GPT-3은 0초(거의 즉각적인 작업)만 가능했습니다. GPT-4가 몇 분짜리 작업을 처리하기 시작했고, 2024년 o1 모델은 약 30분, 2025년 Claude 3.7 Sonnet은 50분, o3는 1.7시간짜리 작업을 50% 신뢰도로 완료할 수 있게 됐습니다.

 

이 추세대로라면 2030년경에는 AI가 인간 전문가 기준 한 달 걸리는 프로젝트를 자율적으로 수행할 수 있다는 예측입니다. 더 흥미로운 건, 2024-2025년 데이터만 따로 분석하면 성장 속도가 엄청 빠르다는 점입니다. 7개월이 아니라 4개월마다 2배로 가속화되고 있는데요.

 

AI가 시험 문제나 지식 테스트에서는 이미 인간 전문가를 압도하지만, 정작 실제 업무 자동화에선 여전히 한계가 많았는데, 바로 작업의 ‘리드 타임’이 문제였던 겁니다. 현재 최고 모델인 Claude 3.7 Sonnet도 겨우 1시간짜리 작업까지만 신뢰할 수 있습니다. 하루 8시간 업무는커녕, 아직 점심시간도 못 채웁니다.

 

하지만 역설적으로, 바로 이 ‘길이’ 지표가 폭발적으로 성장하고 있다는 게 이번 연구의 핵심입니다. 6년 전엔 몇 초, 지금은 1시간, 5년 후면 한 달입니다. 단순 성능 개선 그 이상이죠. 반도체 산업 ‘무어의 법칙'(18개월마다 성능 2배)보다 빠릅니다.

 

 

chatGPT가 생성한 이미지입니다

 

 


 

 

엔비디아 젠슨 황 대표는 2025년 APEC CEO 서밋 특별 연설에서 “20세기 ‘무어의 법칙’은 한계에 다다랐다”며 “엔비디아가 30년 전 발명한 그래픽처리장치(GPU) 가속 컴퓨팅이 이 한계를 넘어서는 길을 열었다”고 말했습니다. 즉, 중앙처리장치(CPU) 중심의 컴퓨팅 시대가 아닌 GPU 중심의 가속 컴퓨팅 시대가 열리면서 전력 효율과 성능 면에서 압도적 차이가 발생하고 있는 겁니다.

 

2019년 GPT-2 때만 해도 AI가 ‘며칠 걸리는 인간 업무를 대체할 수 있을까?’라는 질문 자체가 허황됐습니다. 지금은 ‘몇 년 안에 가능할까?’를 생각하는 상황입니다.

 

문제는 이 속도가 선형적이지 않다는 겁니다. 7개월마다 2배면, 2년 반이면 8배, 5년이면 64배입니다. 지금 1시간 작업을 하는 AI가 5년 후 64시간(약 8일) 작업을 한다는 뜻입니다. 그게 2030년이고, 논문이 예측한 ‘한 달짜리 프로젝트 자율 수행’과 맞아떨어집니다.

 

결국 이 그래프가 말하는 건 AI가 점점 똑똑해진다는 개념보단 점차 ‘오래’ 일할 수 있게 되고 있다는 겁니다. 그리고 그 속도는 우리 예상보다 훨씬 빠릅니다.

 

 


참조 : 

Measuring AI Ability to Complete Long Tasks – METR

[2503.14499] Measuring AI Ability to Complete Long Tasks


정병진 님이 브런치에 게재한 글을 편집해 모비인사이드에서 한 번 더 소개합니다.