AI 89점 vs 의사 34점… 응급 환자 진단-치료, 인간 넘었다

3 weeks ago 21

美 공동 연구팀 ‘사이언스’ 발표
복잡한 추론 가능한 오픈AI ‘o1’… 환자 76명 진료기록 무작위 분석
사례 143건 중 88.6% 정답 제시… 전공-전문의 진단 정확도 웃돌아
표정 인식-정보 처리 등 한계도

응급실은 정보가 부족하고 시간이 촉박한 가운데 신속한 진단이 필요한 곳이다. 진단이 늦거나 틀리면 환자 생명이 위험해질 수 있다. 생성형 인공지능(AI) ‘챗GPT’로 생성한 이미지.

생성형 인공지능(AI)이 응급실 의사들보다 정확하게 응급 환자를 진단하고 치료 방향을 제시할 수 있다는 연구결과가 나왔다. 실제 대규모 응급실 환자 데이터로 검증된 연구결과라는 점에서 주목된다.

피터 브로듀어 미국 베스이스라엘 디코니스 메디컬센터 연구원, 아르준 만라이 미국 하버드대 의대 교수, 애덤 로드먼 베스이스라엘 디코니스 메디컬센터 연구원 공동 연구팀은 챗GPT 개발사 오픈AI의 추론 특화 AI 모델을 6가지 임상 추론 과제에서 의사 수백 명과 비교한 결과를 지난달 30일(현지 시간) 국제학술지 ‘사이언스’에 발표했다.

그동안 의료 AI 연구는 ‘의사 면허시험’이나 ‘의료 영상 판독’ 같은 어느 정도 정해진 문제 풀이를 기준으로 사람과 AI의 수행 능력을 비교하는 식이었다. 잘 정리된 사례 문제를 풀어나가는 AI와 의사의 능력치는 엎치락뒤치락하는 양상을 보였다. 이후 AI가 의사 면허시험이나 진단 테스트를 잇달아 정복하면서 더 까다로운 시험대가 필요해졌다.

응급실은 짧은 시간 안에 단편적이면서도 직관적인 정보만으로 결정을 내려야 하는 곳이다. 검사 수치가 빠져 있거나 환자가 증상을 제대로 설명하지 못하는 경우도 흔하다. 깔끔하게 정리된 의사 시험 문제와 달리 부족한 단서를 가지고 판단해야 해 AI에게도 한층 까다로운 시험대다.

연구팀은 보스턴의 한 대형 대학병원 응급실에서 환자 76명의 진료 기록을 무작위로 뽑아 AI에게 판단을 맡겼다. 검사 수치가 깔끔히 정리되지 않고 정보가 군데군데 빠져 있는, 인간 의사가 마주하는 날것의 데이터 그대로였다.

여기에 의학 학술지 ‘뉴 잉글랜드 저널 오브 메디신’이 매주 싣는 까다로운 진단 사례 143건과 의대생 교육용으로 만들어진 가상 환자 진료 시나리오, 환자에게 어떤 검사·치료를 할지 결정하는 사례 등 6가지 시험을 더했다. 같은 문제를 미국 전공의·전문의 수백 명, 이전 세대 AI ‘GPT-4’에도 풀게 한 뒤 오픈AI의 최신 추론 특화 AI 모델 ‘o1’의 성적과 비교했다. o1은 답을 내기 전 단계별로 추론하는 과정을 강화한 모델로, 빠르게 답하는 GPT-4 등 기존 모델과 달리 사람처럼 시간을 들여 생각하는 방식으로 작동한다.

o1은 의학 학술지 진단 사례 143건 중 약 88.6%에서 정답 진단을 제시했다. 정답과 매우 근접한 진단까지 정답으로 치면 거의 모든 사례를 맞혔다. 환자를 보자마자 첫 번째로 제시한 진단이 정답인 경우도 절반을 넘었다. 같은 사례를 푼 GPT-4의 정답률은 72.9%로, o1이 약 16%포인트 앞섰다. 의사들과 비교한 별도 사례 분석에서도 o1은 전공의·전문의의 진단 정확도를 모두 웃돌았다. 실제 환자 데이터에서도 결과는 같았다. 환자 정보가 가장 적은 초기 응급실 단계에서 o1은 약 67%를 맞힌 반면에 비교실험에 참여한 두 전문의는 절반가량을 맞히는 데 그쳤다. 응급실 의사가 직접 환자를 본 뒤 입원 여부를 결정하는 단계로 갈수록 o1과 의사 모두 정답률이 올라갔다. 마지막 단계에서 o1은 약 82%, 전문의는 약 79%까지 따라붙었다. 정보가 부족한 초기 시점일수록 o1과 의사의 격차가 컸다는 뜻이다.

치료 방향을 정하는 환자 관리 사례에서 격차는 더 벌어졌다. o1이 100점 만점에 평균 89점을 받는 동안 의사들의 평균 점수는 34점에 그쳤다. o1이 의사보다 두 배 이상 높은 점수를 받은 셈이다. 의사가 GPT-4의 도움을 받아도 점수는 거의 오르지 않았다.

진단의 출처가 사람인지 AI인지 모르는 상태에서 또 다른 전문의 두 명이 점수를 매기는 방식의 평가도 진행됐다. 평가자 2명이 출처를 맞힌 비율은 15.2%, 3.1%에 불과했다. 사람과 AI의 답을 사실상 구별하지 못했다는 뜻이다.

연구팀은 “이제는 실제 진료 현장에서 환자에게 도움이 되는지 검증하는 임상시험 단계로 빠르게 넘어가야 한다”면서도 “AI는 아직 표정과 목소리, 영상 검사 결과 등 글로 옮기기 어려운 정보 처리에 약하다”고 한계를 밝혔다.

임정우 동아사이언스 기자 jjwl@donga.com