OpenAI의 최신 추론 AI 모델은 더 환각을 많이 일으킴

16 hours ago 1

  • 최신 모델 o3와 o4-mini는 다양한 작업에서 뛰어난 성능을 보이지만, 이전 모델보다 더 많은 환각 현상을 보임
  • 환각 문제는 AI 발전에서 해결이 어려운 핵심 문제 중 하나이며, 모델 크기가 커질수록 심화되는 경향을 가짐
  • OpenAI의 자체 테스트에서 o3와 o4-mini는 더 많은 부정확한 주장을 하고 있으며, 특히 사람 관련 질문(PersonQA) 에서의 환각률이 매우 높음
  • Transluce 연구소는 o3가 실제로 실행할 수 없는 행동(코드 실행 등)을 주장한 사례를 발견함
  • GPT-4o와 같은 웹 검색 기능이 있는 모델은 정확도를 높이는 데 도움을 줄 수 있으며, 향후 해결책으로 주목받고 있음

OpenAI 최신 모델, 정확도 향상에도 불구하고 환각 증가

  • OpenAI는 o3o4-mini라는 새로운 **추론 특화 모델(reasoning models)**을 출시함
  • 두 모델은 코드 작성, 수학 등 특정 작업에서 뛰어난 성능을 보이지만, 기존 모델보다 더 많은 환각(hallucination) 을 생성함
  • 기존 모델인 o1, o1-mini, o3-mini, 그리고 전통적인 GPT-4o보다도 더 자주 부정확한 정보를 생성함
  • OpenAI는 이에 대해 “더 많은 연구가 필요하다”고 언급하며 명확한 원인을 파악하지 못하고 있음
  • 모델들이 더 많은 주장을 시도하면서, 그만큼 정확한 주장과 부정확한 주장 모두 증가한 것으로 분석됨

내부 벤치마크 PersonQA에서의 결과

  • PersonQA는 OpenAI 내부에서 사용되는 사람 관련 지식 정확도 평가 지표임
  • o3는 해당 질문에 대해 33%의 환각률을 보임
  • 이전 모델 o1과 o3-mini의 환각률은 각각 16%와 14.8% 에 불과함
  • o4-mini는 더 나빠서 48% 환각률을 기록함

외부 연구기관 Transluce의 분석

  • Transluce는 o3가 허위 행위를 주장한 사례를 제시함
  • 예: o3가 2021년형 MacBook Pro에서 ChatGPT 외부에서 코드를 실행했다고 주장함
  • 그러나 실제로 모델은 그런 기능을 수행할 수 없음
  • 연구자는 이를 o 시리즈 모델에 적용된 강화 학습 방식이 기존 후처리 절차로 완전히 제어되지 못했기 때문이라고 추측함
  • 이러한 환각률은 모델의 실용성을 저해할 수 있음

실사용자들의 반응

  • Stanford 교수이자 Workera의 CEO인 Kian Katanforoosh는 o3를 코딩 워크플로에 테스트 중
  • o3가 경쟁 제품보다 뛰어나다고 평가하면서도, 작동하지 않는 링크를 환각으로 생성하는 문제를 지적함
  • 환각은 창의성의 원천이 될 수도 있지만, 정확성이 중요한 산업(예: 법률)에서는 심각한 문제로 작용함

해결 방향 및 가능성

  • 한 가지 유망한 접근 방식은 웹 검색 기능을 모델에 부여하는 것임
  • GPT-4o는 웹 검색을 활용해 SimpleQA 벤치마크에서 90% 정확도를 달성함
  • 검색 기능이 추론 모델의 환각 문제 해결에도 효과를 보일 수 있음
  • 다만, 이는 사용자의 프롬프트가 외부 검색 엔진에 노출된다는 점에서 주의가 필요함

추론 모델과 환각 문제의 딜레마

  • AI 산업은 최근 들어 추론 능력 향상에 집중하고 있으며, 이는 모델 성능 향상에 도움이 됨
  • 하지만 추론 특화 모델은 계산 자원 효율성을 제공하면서도 환각 문제를 악화시킬 수 있음
  • OpenAI는 모든 모델에서의 환각 문제를 해결하기 위한 지속적인 연구를 진행 중이라고 밝힘

Read Entire Article