현재 오픈AI는 추론 모델인 o1, o3-mini, o3-mini-high, 비추론 모델인 GPT-4o, GPT-4.5를 각각 서비스하고 있다. 월간 결제 사용자 입장에서는 GPT-4o가 기본 설정돼 있고, 추가로 o1, o3 등을 모두 사용할 수 있어 어떤 상황에 어떤 GPT 버전이 좋을지 짐작이 어렵다. 기술적으로 추론 모델과 비추론 모델은 어떤 차이가 있으며, 상황에 따라 어떤 모델을 활용하는 것이 좋은지 정리한다.
결과만 내놓는 비추론 모델, 고민하는 추론 모델
AI 모델은 데이터를 활용해 패턴과 규칙을 학습하도록 만드는 과정인 학습(Training), 학습된 모델을 활용해 예측 및 결정을 내리는 추론(Inference)으로 나뉜다. 예를 들어 AI 모델은 ‘사과’라는 과일을 그 자체로는 인지할 수 없다. 따라서 사과의 사진 및 수집 자료를 전처리해 사과라는 데이터를 만들고, ‘이 형태의 데이터는 사과다’라고 학습시킨다. 이 과정까지가 훈련이다. 추론 단계는 이미 학습이 완료된 데이터를 기반으로 사용해 곧바로 사과를 인지하는 과정을 뜻한다.
그렇다면 GPT-4.5의 비추론은 무엇을 의미할까? 기본적으로 추론 모델은 보유 데이터를 기반으로 상황에 맞는 표현이나 최선의 답변을 생성하기 위한 처리 과정을 거친다. 내부의 데이터 처리 과정을 짚어볼 수 있어서 업계에서는 ‘설명 가능한 AI(eXplainable AI, XAI)’라고도 부른다. 반면 비추론 모델은 데이터를 활용하는 건 동일하고 결과까지 제공하지만, 어떤 과정을 거쳐 결론에 도달했는지를 알 수 없다. 업계에서는 비추론 모델의 처리 과정이 깜깜하다고 해 ‘블랙박스’라고 부른다.따라서 ‘사과 인지 AI 모델’이 있다면, 추론 모델은 AI가 어떻게 사과를 인지했는지 단계적으로 알 수 있다. 사과의 이미지를 가져와 정규화 및 크기를 조정해 데이터를 정리하고, 여러 필터를 사용해 이미지의 선, 형태, 색상변화 등 기본적인 특징을 추출한 뒤 사과 특유의 형태나 표면 질감 등을 인식한다. 그다음 여러 특징들을 연결하고, 객체를 판단한다. 이 과정에서 어떤 데이터가 어떻게 동원됐는지, 왜 이런 결론이 이르렀는지를 알 수 있다. 반면 비추론 모델은 처리 내용이 불투명한 블랙박스를 거쳐 결과가 나오므로 사과를 인지했다는 결론만 낸다.
결과 도출 과정을 알 수 있는가, 모르는가는 큰 차이를 만든다. 비추론 모델은 절차를 공개하지 않으니 서비스 기업이 AI 보안을 유지하는 데 있어서는 도움이 되고, 사용자가 빠르게 결과만 알 수 있다는 장점이 있다. 다만 계산 과정이 숨겨져 있어 과정을 이해하기 어렵고, 결과가 잘못 나오거나 모순이 있어도 원인을 파악하거나 학습 용도로 쓸 수 없다. 과학이나 의학 연구 등 광범위한 데이터를 다루는 분야에서는 어떤 부분이 문제인지 알 수 없어 곤란하다.
추론 모델은 사고 과정이나 근거를 알 수 있으니 과학 기술 연구나 화학, 재료 공학 등 AI 분야를 활용할 수 있는 다양한 분야에서 활용도가 높다. 다만 정보가 과도하게 유입될 여지가 있고, 추론 과정 중 잘못된 오류가 개입하면 최종 결과에 영향을 줄 수 있다. 해석 과정을 공개하는 만큼 보안 문제도 있을 수 있다. 에너지 소모량 측면에서는 큰 차이가 없다. 추론 모델이 추가 연산 및 후처리가 조금 더 들어간다는 정도의 차이인데, 단일 질문으로는 비슷하고 데이터 센터 규모 레벨로 환산하면 차이가 있는 정도다.
챗GPT, 어떤 상황에서 어떤 모델 쓰는 게 좋나?
기본적인 질문에 대한 대답은 GPT-4o나 o1이나 크게 다르지 않다. GPT-4o과 o1에 ‘순수이성 비판에 나오는 자각의 예취란 무엇인가’를 각각 질문했다. 이때 GPT-4o는 예취라는 사전적 개념과 이를 이해하기 위한 배경 지식들, 그리고 이해 방법과 결론을 자료 조사 방식처럼 나열한다. 반면 추론 모델인 o1은 실제로 설명하는 방식처럼 자각의 예취를 설명하며, 해당 개념을 이론적으로 풀어 단계별로 설명한다.
더 쉽게 설명하기 위해 요리 레시피를 입력하면 GPT-4o는 재료와 절차를 중심으로 설명하는 반면, o1은 각 단계에서 어떤 재료를 얼만큼 넣을지, 어떻게 가공할지, 레시피 순서에 따른 의미는 무엇이며 어떤 재료나 도구가 도움이 될지를 각각 설명한다. 즉 정의내려진 내용을 물어볼 때를 기준으로 한다면, 비추론 모델은 도서관처럼 필요한 자료를 차곡 제공하는 방식이고, 추론 모델은 이를 이해하기 쉽게 논리적으로 정리해서 제공하는 식이다.
수학 등 명확한 정답이 있는 문제를 빠르게 결론내고 싶다면 GPT-4o를 비롯한 비추론 모델을, 각 과정에 대한 상세 설명을 보고 확인하고 싶다면 추론 모델인 o1, o3를 쓰는 게 정확하다. ‘연간 수익률 7%, 3개월마다 2000달러(약 289만 원)를 10년 동안 투자할 경우의 미래 가치를 계산해줘’라는 질문을 했을 때, GPT-4o는 파이썬(Python) 기반으로 결과만 제공하는 반면 o1은 각 절차와 수식을 정확히 상세 설명한다. 다른 과학이나 코딩 등도 같은 방식으로 접근하면 된다.
모호한 질문이나 대규모 데이터에 대한 작업도 추론 모델이 더 적합하다. ‘세상 사람들이 생각하는 정의의 기본 개념’이라는 모호한 질문을 던졌다. 이때 GPT-4o는 존 롤스나 아리스토텔레스, 소크라테스, 마틴 루터 킹 주니어 등 이미 정의된 데이터를 기반으로 제시하는 반면, o1은 관련 인사들의 발언을 한차례 더 가공한 뒤 조금 더 사람이 생각한 것 같은 문맥으로 정리한다. 대규모 데이터를 다루는 경우에도 사용자가 필요한 내용에 좀 더 집중하는 경향이 있다.
일반적인 작업이라면 GPT 사용 모델이 추론인가, 비추론인가를 따질 필요는 없다. 하지만 작업의 구성에 따라 맞춰서 사용하면 더 효율적으로 작업할 수 있다. 게다가 GPT-5부터는 추론과 비추론 모델이 통합되고, 다른 AI 제조사들 역시 추론과 비추론을 통합하는 단계에 있어 이를 구분하는 것도 잠깐 사이의 일이다. 따라서 추론, 비추론의 구분은 AI 동작 방식에 대한 이해를 돕기 위한 상식 정도로 여기도록 하자.
IT동아 남시현 기자 (sh@itdonga.com)- 좋아요 0개
- 슬퍼요 0개
- 화나요 0개