- 최신 모델 o3와 o4-mini는 다양한 작업에서 뛰어난 성능을 보이지만, 이전 모델보다 더 많은 환각 현상을 보임
-
환각 문제는 AI 발전에서 해결이 어려운 핵심 문제 중 하나이며, 모델 크기가 커질수록 심화되는 경향을 가짐
- OpenAI의 자체 테스트에서 o3와 o4-mini는 더 많은 부정확한 주장을 하고 있으며, 특히 사람 관련 질문(PersonQA) 에서의 환각률이 매우 높음
-
Transluce 연구소는 o3가 실제로 실행할 수 없는 행동(코드 실행 등)을 주장한 사례를 발견함
- GPT-4o와 같은 웹 검색 기능이 있는 모델은 정확도를 높이는 데 도움을 줄 수 있으며, 향후 해결책으로 주목받고 있음
OpenAI 최신 모델, 정확도 향상에도 불구하고 환각 증가
- OpenAI는 o3와 o4-mini라는 새로운 **추론 특화 모델(reasoning models)**을 출시함
- 두 모델은 코드 작성, 수학 등 특정 작업에서 뛰어난 성능을 보이지만, 기존 모델보다 더 많은 환각(hallucination) 을 생성함
- 기존 모델인 o1, o1-mini, o3-mini, 그리고 전통적인 GPT-4o보다도 더 자주 부정확한 정보를 생성함
- OpenAI는 이에 대해 “더 많은 연구가 필요하다”고 언급하며 명확한 원인을 파악하지 못하고 있음
- 모델들이 더 많은 주장을 시도하면서, 그만큼 정확한 주장과 부정확한 주장 모두 증가한 것으로 분석됨
내부 벤치마크 PersonQA에서의 결과
-
PersonQA는 OpenAI 내부에서 사용되는 사람 관련 지식 정확도 평가 지표임
- o3는 해당 질문에 대해 33%의 환각률을 보임
- 이전 모델 o1과 o3-mini의 환각률은 각각 16%와 14.8% 에 불과함
- o4-mini는 더 나빠서 48% 환각률을 기록함
외부 연구기관 Transluce의 분석
- Transluce는 o3가 허위 행위를 주장한 사례를 제시함
- 예: o3가 2021년형 MacBook Pro에서 ChatGPT 외부에서 코드를 실행했다고 주장함
- 그러나 실제로 모델은 그런 기능을 수행할 수 없음
- 연구자는 이를 o 시리즈 모델에 적용된 강화 학습 방식이 기존 후처리 절차로 완전히 제어되지 못했기 때문이라고 추측함
- 이러한 환각률은 모델의 실용성을 저해할 수 있음
실사용자들의 반응
- Stanford 교수이자 Workera의 CEO인 Kian Katanforoosh는 o3를 코딩 워크플로에 테스트 중
- o3가 경쟁 제품보다 뛰어나다고 평가하면서도, 작동하지 않는 링크를 환각으로 생성하는 문제를 지적함
- 환각은 창의성의 원천이 될 수도 있지만, 정확성이 중요한 산업(예: 법률)에서는 심각한 문제로 작용함
해결 방향 및 가능성
- 한 가지 유망한 접근 방식은 웹 검색 기능을 모델에 부여하는 것임
- GPT-4o는 웹 검색을 활용해 SimpleQA 벤치마크에서 90% 정확도를 달성함
- 검색 기능이 추론 모델의 환각 문제 해결에도 효과를 보일 수 있음
- 다만, 이는 사용자의 프롬프트가 외부 검색 엔진에 노출된다는 점에서 주의가 필요함
추론 모델과 환각 문제의 딜레마
- AI 산업은 최근 들어 추론 능력 향상에 집중하고 있으며, 이는 모델 성능 향상에 도움이 됨
- 하지만 추론 특화 모델은 계산 자원 효율성을 제공하면서도 환각 문제를 악화시킬 수 있음
- OpenAI는 모든 모델에서의 환각 문제를 해결하기 위한 지속적인 연구를 진행 중이라고 밝힘