완벽한 세상이라면 주장의 설득력은 누가 말했는지가 아니라 내용 자체에 기반했을 것이다. 하지만 현실은 그렇지 않다. 그리고 생성형 AI의 정확도를 평가하는 테스트에서는 오픈AI만큼 신뢰하기 어려운 주체도 없을 것이다.
수많은 CIO가 반짝이는 새로운 생성형 AI 툴에서 의미 있는 ROI를 산출하려고 지속적이고 잠재적으로 헛된 노력을 한다. 이런 노력에서 가장 큰 장애물은 ‘환각’ 현상이다. 생성형 AI가 내놓은 분석의 유효성과 유용성을 심각하게 고민하게 만드는 것이 바로 환각이기 때문이다.
이런 관점에서 오픈AI가 생성형 AI 툴의 객관적 정확성을 판단하기 위한 테스트를 시도한 점은 환영할 만하다. 하지만 심플QA(SimpleQA)라는 이름의 노력은 2가지 측면에서 기업 기술 의사결정권자에게 실망을 안긴다.
첫째, 오픈AI는 생성형 AI의 알고리즘의 정확성을 판단하는 데 있어 CIO가 신뢰할 수 있는 최후의 주체다. 다른 산업에 비유하면 월마트, 타깃, 아마존이 제작한 쇼핑 사이트 추천 앱과 토요타 혹은 GM이 만든 자동차 평가 툴을 얼마나 신뢰할 수 있을까?
둘째, 심플QA는 지나치게 단순한 문제에 초점을 맞춘다. 이 테스트는 단 하나의 정답만 존재하는 명확하고 단순한 질문에만 집중한다. 더 중요한 점은 이런 질문에 대한 답은 툴 없이도 쉽게 검증하고 결정할 수 있다는 점이다. 대부분 기업이 생성형 AI 기술을 활용하고자 하는 방식과는 거리가 멀다.
예를 들어, 엘리 릴리(Eli Lilly)와 화이자(Pfizer)는 새로운 질병 치료용 약물 조합을 찾기 위해 AI를 사용하고자 한다. 나중에 치료법을 테스트한 결과 생성형 AI의 답변이 틀린 것이 드러나면 많은 노력을 낭비하는 셈이다. 코스트코(Costco)와 월그린(Walgreens)는 새로운 매장을 열기 위한 가장 수익성 높은 위치를 찾고자 하고, 보잉(Boeing)은 더 효율적인 항공기 제작 방식을 구상하기를 원한다.
심플QA, 무엇이 문제인가?
우선 오픈AI가 발표한 내용을 살펴보자. 오픈AI 문서에서 발췌한 내용을 보고, 회사의 의견을 더 나은 맥락으로 해석해본다.
“AI가 아직 해결하지 못한 문제는 사실에 맞는 응답을 생성하는 모델을 훈련하는 방법을 알아내는 것이다”. 이를 해석하면, “가끔이라도 정답을 맞히는 AI 모델을 만드는 것이 좋겠다고 생각했다”라는 의미다.
“더 정확한 응답과 환각이 더 적은 언어 모델은 더 신뢰할 수 있고 더 광범위한 애플리케이션에 사용될 수 있다.” 즉, “우리를 히피라고 불러도 좋지만, 브레인스토밍을 통해 제품이 실제로 작동하면 수익을 개선할 수 있다는 결론을 내렸다”라는 뜻이다.
다소 경박한 표현은 제쳐두고, 오픈AI가 구체적인 정답을 확인할 수 있는 기본적인 방법으로 생성형 AI의 정확성을 평가하려는 선의의 노력을 기울였다는 점은 인정해야 한다. 하지만 직접 제작하기보다는 신뢰할 수 있는 제3의 컨설팅 또는 분석 기관에 이를 의뢰하고, 오픈AI의 개입을 최소화했다면 더 신뢰를 받을 수 있었을 것이다.
심플QA가 실용성이 없는 이유
그래도 없는 것보다 있는 것이 낫기 때문에 오픈AI의 말을 들어본다. 오픈AI는 심플QA를 다음과 같이 설명했다.
“심플QA는 모델이 ‘알고 있는 것을 알고’ 답변을 제공하는지 평가하는 간단하고 목표 지향적인 툴이다. 명확한 하나의 정답이 존재하는 질문으로 구성되며, 각 답변은 ‘정답’, ‘오답’, ‘시도하지 않음’ 중 하나로 평가된다. 이상적인 동작을 하는 모델은 정답을 알고 있다고 확신할 수 없는 문제는 시도하지 않으면서 가능한 한 많은 문제를 정답으로 맞힐 것이다.”
이런 접근 방식이 왜 효과가 있는지(혹은 ‘있을 것 같은지’) 생각해보면, 도움이 되지 않는 이유가 분명해진다. 심플QA는 모델이 이런 질문에 정확하게 답할 수 있다면 다른 질문에도 동일한 정확도로 답할 수 있을 것이라고 가정한다. 그리고 이런 가정에는 심각한 결함이 있다. 생성형 AI는 1만 개의 질문에 정확히 답하다가도, 그다음 50개 질문에서는 환각을 일으킬 수 있다. 환각은 예측 가능성이 전혀 없이 무작위로 발생하기 때문에 심플QA의 테스트는 적합하지 않다. 계산기 같은 툴에서는 작동할 수 있다.
조금 더 구체적으로 말하자면, 생성형 AI 툴이 심플QA의 모든 답을 맞힌다면 의미가 없을 것이다. 하지만 그 반대는 사실이 아니다. 필자가 테스트한 모델이 심플QA 테스트의 전부 혹은 대부분을 틀린다면, 이 모델은 IT팀에 상당한 시사점을 준다. 기술 관점에서 보면 테스트가 불공평해 보인다. A를 받으면 무시된다. F를 받으면 믿게 된다. 영화 워게임(The War Game)에서 AI 프로그램 조슈아가 말했듯이 “유일한 승리는 게임을 하지 않는 것”이다.
오픈AI도 이런 문제를 인정하고 있다. 문서에서 “이 연구에서 오픈AI는 언어 모델의 개방성을 회피하기 위해 단일 답변이 존재하는 짧은, 사실 지향적인 질문만 고려했다. 범위를 축소한 것이 중요한 이유는 사실성을 측정하는 작업을 훨씬 더 잘 다룰 수 있기 때문이다. 하지만 이로 인해 짧은 사실성에 대한 개선이 긴 형식의 사실성으로 일반화될 수 있는지가 여전히 미해결로 남는다”라고 밝혔다.
또한 문서 후반부에서 오픈AI는 “심플QA의 가장 큰 한계는 명확하다. 하나의 검증 가능한 답변이 있는 짧은 사실 지향형 쿼리라는 제한된 설정에서만 사실성을 측정한다는 점이다. 사실에 입각한 짧은 답변을 제공하는 능력이 수많은 사실로 채워진 긴 답변을 작성하는 능력과 상관관계가 있는지는 아직 연구 중이다”라고 덧붙였다.
심플QA는 4,326개의 “짧고 사실을 묻는 질문”으로 구성돼 있다.
기업에서의 실질적인 한계
심플QA 테스트의 또 다른 구성 요소는 답변 작성자가 아닌 질문 작성자가 더 큰 책임을 진다는 점이다. 예를 들어, “버락과 미셸 오바마가 만난 장소는 어디인가?”와 같은 질문에 대한 답은 ‘시카고’ 또는 ‘법률 회사 시들리 앤 오스틴(the law firm Sidley & Austin)이 모두 가능하다. 따라서 질문자는 “어느 도시에서” 또는 “어느 회사에서”와 같이 범위를 명확히 지정해야 한다. 비슷한 예로 단순히 ‘언제’라고 묻는 대신 ‘몇 년도’ 또는 ‘몇 월 며칠”이라고 물어야 한다.
이런 방식은 기업 환경에서는 실용성이 떨어진다. 기업 사용자는 질문을 명확하게 정의하지 않는다. “자연어로 질문하면 시스템이 알아서 문맥을 통해 의미를 파악한다”라는 약속을 믿고 도입했기 때문이다. 심플QA 테스트는 이런 점을 고려하지 않는다.
환각 현상은 그 특성상 정량화할 방법이 없다. 예측 가능하다면, IT팀은 매 75번째 응답을 무시하도록 툴을 프로그래밍하면 된다. 하지만 현재로서는 불가능한 일이다. 환각을 완전히 제거할 방법이 나오기 전까지는 신뢰할 수 없는 답변 문제는 지속될 것이다.
editor@itworld.co.kr