오픈AI, 추론 특화 모델 ‘o3’
답하기 전에 생각하도록 훈련
GPT-5 학습해도 성능 못미쳐
“내년 중반 출시 확실치 않아”
챗GPT를 만드는 오픈AI가 한층 향상된 고급 추론(reasoning) 능력을 탑재한 새로운 인공지능(AI) 모델인 ‘o3’(오쓰리)를 공개했다. 인간보다 뛰어난 일반인공지능(AGI)에 근접한 AI이다.
20일(현지시간) 오픈AI는 올해 9월 공개한 추론특화 모델인 o1의 차세대 모델인 o3를 공개했다. 오픈AI에 따르면 o3는 다양한 벤치마크에서 뛰어난 성능을 기록했으며 대부분 영역에서 인간보다 뛰어난 점수를 얻었다.
o3는 AI가 얼마나 AGI에 근접했는지를 평가하기 위해 고안된 테스트인 ‘ARC-AGI’에서 87.5%의 점수를 받았다. 인간 수준이 85%인데 이를 넘어선 것이다. 이는 ARC-AGI가 2019년 만들어진 이후 최고 점수다.
ARC-AGI를 개발한 ARC파운데이션의 프랑스와 촐레는 “(o3의) 이 같은 결과를 보면서 AI가 무엇을 할 수 있는지에 대한 세계관을 바꿔야겠다고 생각했다”고 밝혔다.
다만 이는 컴퓨팅 파워를 많이 사용했을 때 기준이며 컴퓨터 사용 수준이 낮을 경우에는 75.7%였다.
o3는 코딩능력도 월등히 높은 것으로 나타났다. 코딩능력을 평가하는 코드포스 등급에서 2727점을 기록했다. o3는 2024년 미국 수학능력시험에서 단 한 문제만 틀려서 96.7%를 획득했고 대학원 수준의 생물학, 물리학, 화학 문제들로 구성된 ‘GPQA 다이아몬드’에서 87.7%를 달성했다.
o3는 내년 1월 말 작고 빠른 ‘o3 미니’를 먼저 공개하고, 내년에는 o3를 출시할 예정이다.
오픈AI가 이날 뛰어난 성능의 AI 모델을 내놨지만 코드명 ‘오리온’으로 불리는 GPT-5의 출시는 계속 지연되고 있다는 보도가 나왔다.
월스트리트저널(WSJ)은 21일(현지시간) 오픈AI가 개발 중인 GPT-5 최소 두 차례 이상의 학습을 했지만 그때마다 새로운 문제가 발생했고 성능은 기대에 미치지 못했다고 보도했다. 업계에서는 내년 중반 출시를 예상하고 있지만 확실하지 않다는 설명이다.
오픈AI의 ‘GPT’와 ‘o’ 시리즈는 다른 방식으로 만들어진 모델이다. 2018년 처음 등장한 GPT는 매개변수와 데이터, 투입되는 GPU의 양을 계속 늘리는 방식으로 만들어졌다. GPT-1 매개변수 1억1700만개에서 시작해 15억개(GPT-2), 1750억개(GPT-3), 1조7600억개(GPT-4)로 계속 커졌다. 이처럼 매개변수가 커질수록 AI 성능은 비약적으로 개선된다.
o1은 AI가 스스로 생각하는 추론능력을 갖춘 것이 특징이다. 매개변수와 데이터를 키우지 않아도 AI 성능이 좋아진다고 오픈AI는 주장하고 있다.
하지만 일각에서는 AI 성능 향상 작업이 한계에 부딪혔다는 주장을 제기한다. 오픈AI가 GPT-4의 후속인 GPT-5를 내놓지 못하고 추론능력에 중점을 둔 o3 모델을 공개하는 것도 이 같은 이유 때문이라는 설명이다.