한때 엉뚱한 답을 내놓고 사실과 다른 내용을 그럴듯하게 꾸며내는 한계로 지적받던 인공지능(AI)이 최근 들어 실제 업무에 투입될 만큼 신뢰도를 높이고 있다는 분석이 나왔다.
19일(현지시간) 월스트리트저널(WSJ)에 따르면 AI는 인간이 실제 일을 시킬 수 있을 정도로 시스템이 보완됐다. 예전보다 더 많은 지식을 갖고 있을 뿐 아니라, 스스로 모르는 내용은 검색엔진 등을 통해 찾아볼 수 있게 된 게 첫 번째 핵심이다. 과거에는 책·웹사이트·게시물·영상 같은 공개 디지털 자료가 주요 학습 원천이었지만, 이제는 의료·금융 등 분야별 전문가들이 시간당 보수를 받고 복잡한 질문의 모범 답안을 작성·평가하면서 AI용 데이터를 따로 만들고 있다는 설명이다.
실제 AI 기업들은 최신성·정확성을 높이기 위해 검색 기능을 적극 결합하고 있다. 오픈AI는 자사 최신 주력 모델의 사실 오류가 2년 전보다 26% 줄었다고 밝혔고, 구글 역시 모델 자체의 지식과 검색 활용 능력을 함께 평가하고 있다고 WSJ는 전했다. 앤스로픽 역시 고객들이 가장 많이 요구하는 것이 “더 정직하고 환각이 적은 챗봇”이다. AI모델이 자신이 모르는 것을 인정하도록 학습시키는 데 힘을 쏟고 있다는 설명이다.
AI가 더 유용해진 두 번째 이유는 '도구 활용 능력'이다. 초기 생성형 AI는 수학 문제나 계산 문제에서도 그럴듯한 답을 추정하는 데 그쳤지만, 이제는 계산이 필요하다는 점을 인식하면 별도 소프트웨어 도구를 호출하거나 스스로 코드를 짜 문제를 푼다. 다시 말해 언어모델이 모든 것을 혼자 처리하는 것이 아니라, 계산기나 프로그래밍처럼 기존의 정밀한 도구를 함께 쓰는 방식으로 정확도를 높이고 있다는 것이다. WSJ는 “무작위적인 정신 작용과 믿을 수 있는 계산기의 결합”이라고 표현했다.
세 번째 변화는 AI가 자기 답을 스스로 검토하고, 다른 AI와 교차 검증한다는 점이다. 초기 챗봇이 거의 즉흥적으로 답을 쏟아냈다면, 이제는 복잡한 질문에 대해 내부적으로 단계적 사고 과정을 거쳐 답을 만든다. 일부 시스템은 여기에 그치지 않고 다른 모델을 동원해 결과를 다시 점검한다. 기업용 AI 시스템에선 한 AI가 낸 답을 다른 회사 모델이 재검토하는 방식도 쓰이고 있으며, 두 모델이 모두 동의해야 결과를 채택하는 사례도 있다고 WSJ는 전했다.
결국 지금의 AI가 예전보다 훨씬 쓸 만해진 것은 모델이 인간처럼 완전히 추론하게 돼서가 아니라, 더 신선한 정보와 전통적인 소프트웨어, 그리고 다른 AI의 검증까지 끌어들였기 때문이라는 결론이다. WSJ은 "AI가 인간처럼 사고하는 것처럼 보일 수 있지만, 실제로는 인간이 수천 년에 걸쳐 발전시켜 온 지식과 도구를 AI에 붙여 넣은 결과에 가깝다"고 해석했다.
김동현 기자 3code@hankyung.com

5 hours ago
1















English (US) ·