OpenAI o1은 응급실 환자의 67%를 정확히 진단했고 분류 의사는 50~55%를 기록

3 hours ago 4
  • Harvard 연구에서 OpenAI의 o1 추론 모델은 응급실 초기 분류(triage) 진단에서 인간 의사보다 높은 정확도를 보였고, LLM은 임상 추론의 대부분 벤치마크를 넘어선 것으로 평가됨
  • Boston 병원 응급실에 온 76명 환자의 표준 전자의무기록을 읽는 실험에서 o1은 정확하거나 매우 가까운 진단을 67%에서 냈고, 인간 의사 2명은 50~55%를 기록함
  • 더 많은 세부 정보가 주어지자 AI 정확도는 82% 로 올랐고 전문가 인간은 70~79%였지만, 이 차이는 통계적으로 유의하지 않았음
  • AI는 항생제 요법이나 임종 과정 계획 같은 장기 치료 계획 과제에서도 의사 46명을 앞섰고, 5개 임상 사례에서 AI 점수는 89%, 기존 자료를 쓴 인간 의사는 34%였음
  • 연구는 텍스트로 전달 가능한 환자 데이터만 비교했으며 비언어적 신호는 테스트하지 않아, 실제 의사 대체보다 서류 기반 2차 소견 역할에 가깝다는 한계가 있음

Harvard 응급실 분류 실험의 핵심 결과

  • Harvard 연구에서 AI 시스템이 응급의학 분류(triage) 상황의 진단 정확도에서 인간 의사보다 높은 성과를 냄
  • Science에 공개된 결과는 수백 명의 의사 응답과 AI 응답을 비교한 실험에서 나왔고, 독립 전문가들은 AI의 임상 추론에서 “진정한 진전”을 보인다고 평가함
  • 대규모 언어 모델(LLM)은 “임상 추론의 대부분 벤치마크를 넘어섰다”는 평가를 받음
  • AI의 우위는 정보가 적고 빠른 판단이 필요한 응급실 초기 분류 상황에서 특히 두드러짐

76명 응급실 환자 진단 실험

  • Boston 병원 응급실에 도착한 76명 환자를 대상으로 한 실험에서 AI와 인간 의사 2명이 같은 표준 전자의무기록을 읽고 진단함
  • 전자의무기록에는 보통 생체징후, 인구통계 정보, 환자가 병원에 온 이유를 적은 간호사의 몇 문장이 포함됨
  • OpenAI의 o1 추론 모델은 정확하거나 매우 가까운 진단을 67%의 경우에 찾아냈고, 인간 의사는 50~55%의 정확도를 기록함
  • 더 많은 세부 정보가 제공되자 AI 진단 정확도는 82% 로 올랐고, 전문가 인간은 70~79%를 기록했으나 이 차이는 통계적으로 유의하지 않았음

장기 치료 계획 실험

  • AI는 항생제 요법을 제안하거나 임종 과정을 계획하는 등 장기 치료 계획을 세우는 과제에서도 더 큰 인간 의사 집단을 앞섬
  • AI와 의사 46명은 5개의 임상 사례 연구를 검토했고, AI는 기존 자료를 활용한 인간 의사보다 유의하게 더 나은 계획을 세움
  • 점수는 AI가 89%, 검색엔진 같은 기존 자료를 사용한 인간 의사가 34% 였음

연구의 한계와 의료 현장의 역할 변화

  • 이번 연구는 텍스트로 전달 가능한 환자 데이터만 놓고 인간과 AI를 비교함
  • 환자의 고통 정도나 시각적 외양 같은 비언어적 신호를 AI가 읽는 능력은 테스트되지 않음
  • 따라서 AI는 실제 응급실 의사를 대체했다기보다 서류 기반으로 2차 소견을 내는 임상의에 더 가까운 역할을 수행함
  • Harvard Medical School AI 연구소를 이끄는 Arjun Manrai는 이번 결과가 AI가 의사를 대체한다는 뜻은 아니며, 의학을 재편할 “매우 심대한 기술 변화”가 진행 중임을 뜻한다고 말함
  • 연구가 진행된 Boston의 Beth Israel Deaconess medical centre 의사 Adam Rodman은 AI LLM을 “수십 년 만에 가장 영향력 있는 기술” 중 하나로 봄
  • Rodman은 향후 10년 동안 AI가 의사를 대체하기보다 의사, 환자, AI 시스템이 함께하는 새로운 삼자 진료 모델에 합류할 것이라고 봄

임상 사례와 AI의 추론

  • Harvard 연구의 한 사례에서 환자는 폐 혈전과 악화되는 증상을 보였음
  • 인간 의사들은 항응고제가 실패하고 있다고 판단했지만, AI는 환자의 루푸스 병력이 폐 염증을 일으킬 수 있다는 점을 포착함
  • AI의 판단은 맞는 것으로 확인됨

이미 확산 중인 의료 AI 사용

  • 지난달 공개된 연구에 따르면 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 사용하고 있음
  • 영국에서는 의사의 16% 가 AI를 매일 사용하고, 추가로 15%가 매주 사용함
  • Royal College of Physicians의 최근 설문에 따르면 영국 의사들의 흔한 사용처 중 하나는 임상 의사결정
  • 영국 의사들이 가장 크게 우려한 부분은 AI 오류와 책임 위험이었음
  • AI 헬스케어 기업에 수십억 달러가 투자되고 있지만, AI 오류의 결과를 둘러싼 질문은 남아 있음
  • Rodman은 현재 책임 소재를 위한 공식 프레임워크가 없다고 했고, 환자는 궁극적으로 삶과 죽음의 결정과 어려운 치료 결정을 인간이 안내해주기를 원한다고 강조함

외부 전문가 평가와 주의점

  • University of Edinburgh 의료정보학 센터 공동소장 Ewen Harrison 교수는 이번 연구가 중요하며, 이런 시스템이 더 이상 의학 시험을 통과하거나 인공 테스트 사례를 푸는 수준에 머물지 않는다고 평가함
  • Harrison은 AI가 특히 더 넓은 범위의 가능한 진단을 고려하고 중요한 것을 놓치지 않아야 할 때 임상의에게 유용한 2차 소견 도구처럼 보이기 시작했다고 봄
  • University of Sheffield 수리·물리과학대학의 Wei Xing 박사는 다른 결과 일부가 의사들이 독립적으로 생각하기보다 AI의 답에 무의식적으로 따를 수 있음을 시사한다고 봄
  • Xing은 AI가 임상 환경에서 더 일상적으로 쓰일수록 이런 경향이 더 커질 수 있다고 말함
  • Xing은 AI가 어떤 환자에서 진단을 더 못했는지, 고령 환자나 영어가 모국어가 아닌 환자에서 더 어려움을 겪었는지에 대한 정보가 부족하다고 지적함
  • Xing은 이번 연구가 AI가 일상 임상 사용에 안전하다는 점이나, 대중이 자유롭게 사용할 수 있는 AI 도구를 의학적 조언의 대체재로 삼아야 한다는 점을 입증하지 않는다고 말함
Read Entire Article