OpenAI o1은 응급실 환자의 67%를 정확히 진단했고 분류 의사는 50~55%를 기록

3 weeks ago 28

Harvard 연구에서 OpenAI의 o1 추론 모델은 응급실 초기 분류(triage) 진단에서 인간 의사보다 높은 정확도를 보였고, LLM은 임상 추론의 대부분 벤치마크를 넘어선 것으로 평가됨
Boston 병원 응급실에 온 76명 환자의 표준 전자의무기록을 읽는 실험에서 o1은 정확하거나 매우 가까운 진단을 67%에서 냈고, 인간 의사 2명은 50~55%를 기록함
더 많은 세부 정보가 주어지자 AI 정확도는 82% 로 올랐고 전문가 인간은 70~79%였지만, 이 차이는 통계적으로 유의하지 않았음
AI는 항생제 요법이나 임종 과정 계획 같은 장기 치료 계획 과제에서도 의사 46명을 앞섰고, 5개 임상 사례에서 AI 점수는 89%, 기존 자료를 쓴 인간 의사는 34%였음
연구는 텍스트로 전달 가능한 환자 데이터만 비교했으며 비언어적 신호는 테스트하지 않아, 실제 의사 대체보다 서류 기반 2차 소견 역할에 가깝다는 한계가 있음

Harvard 응급실 분류 실험의 핵심 결과

Harvard 연구에서 AI 시스템이 응급의학 분류(triage) 상황의 진단 정확도에서 인간 의사보다 높은 성과를 냄
Science에 공개된 결과는 수백 명의 의사 응답과 AI 응답을 비교한 실험에서 나왔고, 독립 전문가들은 AI의 임상 추론에서 “진정한 진전”을 보인다고 평가함
대규모 언어 모델(LLM)은 “임상 추론의 대부분 벤치마크를 넘어섰다”는 평가를 받음
AI의 우위는 정보가 적고 빠른 판단이 필요한 응급실 초기 분류 상황에서 특히 두드러짐

Boston 병원 응급실에 도착한 76명 환자를 대상으로 한 실험에서 AI와 인간 의사 2명이 같은 표준 전자의무기록을 읽고 진단함
전자의무기록에는 보통 생체징후, 인구통계 정보, 환자가 병원에 온 이유를 적은 간호사의 몇 문장이 포함됨
OpenAI의 o1 추론 모델은 정확하거나 매우 가까운 진단을 67%의 경우에 찾아냈고, 인간 의사는 50~55%의 정확도를 기록함
더 많은 세부 정보가 제공되자 AI 진단 정확도는 82% 로 올랐고, 전문가 인간은 70~79%를 기록했으나 이 차이는 통계적으로 유의하지 않았음

이번 연구는 텍스트로 전달 가능한 환자 데이터만 놓고 인간과 AI를 비교함
환자의 고통 정도나 시각적 외양 같은 비언어적 신호를 AI가 읽는 능력은 테스트되지 않음
따라서 AI는 실제 응급실 의사를 대체했다기보다 서류 기반으로 2차 소견을 내는 임상의에 더 가까운 역할을 수행함
Harvard Medical School AI 연구소를 이끄는 Arjun Manrai는 이번 결과가 AI가 의사를 대체한다는 뜻은 아니며, 의학을 재편할 “매우 심대한 기술 변화”가 진행 중임을 뜻한다고 말함
연구가 진행된 Boston의 Beth Israel Deaconess medical centre 의사 Adam Rodman은 AI LLM을 “수십 년 만에 가장 영향력 있는 기술” 중 하나로 봄
Rodman은 향후 10년 동안 AI가 의사를 대체하기보다 의사, 환자, AI 시스템이 함께하는 새로운 삼자 진료 모델에 합류할 것이라고 봄

지난달 공개된 연구에 따르면 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 사용하고 있음
영국에서는 의사의 16% 가 AI를 매일 사용하고, 추가로 15%가 매주 사용함
Royal College of Physicians의 최근 설문에 따르면 영국 의사들의 흔한 사용처 중 하나는 임상 의사결정임
영국 의사들이 가장 크게 우려한 부분은 AI 오류와 책임 위험이었음
AI 헬스케어 기업에 수십억 달러가 투자되고 있지만, AI 오류의 결과를 둘러싼 질문은 남아 있음
Rodman은 현재 책임 소재를 위한 공식 프레임워크가 없다고 했고, 환자는 궁극적으로 삶과 죽음의 결정과 어려운 치료 결정을 인간이 안내해주기를 원한다고 강조함

University of Edinburgh 의료정보학 센터 공동소장 Ewen Harrison 교수는 이번 연구가 중요하며, 이런 시스템이 더 이상 의학 시험을 통과하거나 인공 테스트 사례를 푸는 수준에 머물지 않는다고 평가함
Harrison은 AI가 특히 더 넓은 범위의 가능한 진단을 고려하고 중요한 것을 놓치지 않아야 할 때 임상의에게 유용한 2차 소견 도구처럼 보이기 시작했다고 봄
University of Sheffield 수리·물리과학대학의 Wei Xing 박사는 다른 결과 일부가 의사들이 독립적으로 생각하기보다 AI의 답에 무의식적으로 따를 수 있음을 시사한다고 봄
Xing은 AI가 임상 환경에서 더 일상적으로 쓰일수록 이런 경향이 더 커질 수 있다고 말함
Xing은 AI가 어떤 환자에서 진단을 더 못했는지, 고령 환자나 영어가 모국어가 아닌 환자에서 더 어려움을 겪었는지에 대한 정보가 부족하다고 지적함
Xing은 이번 연구가 AI가 일상 임상 사용에 안전하다는 점이나, 대중이 자유롭게 사용할 수 있는 AI 도구를 의학적 조언의 대체재로 삼아야 한다는 점을 입증하지 않는다고 말함