Stanford Law 연구에서 AI가 법학 교수보다 더 나은 성과를 보임

6 hours ago 1

Stanford Law School 연구에서 법학 교수들은 학생 질문에 대한 동료 교수 답변보다 AI 생성 답변을 압도적으로 선호했으며, 법학 교육 제공 방식에 영향을 줄 수 있는 결과를 보임
미국 로스쿨 법학 교수 16명이 참여한 블라인드 평가에서 약 3,000건의 익명 비교가 이뤄졌고, AI는 교수 답변과의 직접 비교에서 75% 승률을 기록함
참가자들은 계약법 수업 후나 오피스아워에서 학생이 물을 법한 40개 질문을 만들고 직접 답변한 뒤, 출처를 모른 채 AI와 동료 교수 답변을 평가함
교수들은 AI 답변을 교육적으로 해롭다고 표시한 비율이 3.5% 였고, 동료 교수 답변은 12% 였으며, AI 시스템은 연구 내 최고 수준 인간 강사와 비슷한 성과를 보임
결과는 AI 튜터의 전면 도입을 뒷받침하지는 않지만, 법학처럼 판단이 중요한 분야에서도 책임 있는 배포 방식을 논의할 근거를 제공함

연구 설계와 핵심 결과

Stanford Law School 교수 Julian Nyarko가 이끈 연구 “Law Professors Prefer AI Over Peer Answers”는 대규모 언어 모델이 계약법 수업의 효과적인 튜터 역할을 할 수 있는지 검증함
연구에는 미국 로스쿨의 법학 교수 16명이 참여했고, 참가자들은 학생이 수업 후나 오피스아워에서 물을 수 있는 대표적인 계약법 질문 40개를 만들고 직접 답변함
교수들은 답변이 AI에서 왔는지 다른 참여 교수에게서 왔는지 모른 채 평가했으며, 약 3,000건의 익명 비교에서 AI 답변이 75%의 직접 비교 승률을 보임
연구진은 AI 답변의 길이와 구조를 인간 답변에 맞춰 조정하고, 여러 평가 방법을 사용했으며, 답변이 학생을 오도하거나 혼란스럽게 만들 수 있는지도 교수들이 평가하게 함
AI 시스템은 연구 내 최고 수준 인간 강사와 비슷한 성과를 냈고, 교수들이 교육적으로 해롭다고 표시한 비율은 AI 답변 3.5%, 동료 교수 답변 12%였음

법학은 명확한 정답이 없는 경우가 많고, 상충하는 주장들이 모두 설득력을 가질 수 있어 판단, 미묘한 추론, 모호성 대응이 중요함
연구진은 상업용 튜터링 시스템과 Google의 NotebookLM 등 여러 AI 모델도 살폈으며, 모델별 성능에는 차이가 있었음
문맥 제한이 AI 답변에 영향을 준 경우에도 교수들은 인간이 작성한 대안보다 AI 답변을 자주 선호함
로스쿨들은 AI 도구를 법학 교육에 통합하는 문제를 두고 엄격한 학업 기준을 유지해야 하며, 환각, 과의존, 비판적 사고 능력 약화 같은 위험도 고려하고 있음
연구는 AI 도구가 내놓는 답변의 품질을 평가했지만, 학생 학습을 가장 효과적으로 개선하는 구현 방식은 아직 열린 문제이며, 논의는 AI가 정확하고 고품질 답변을 줄 수 있는지에서 학생에게 도움이 되도록 책임 있게 배포하는 방법으로 이동해야 함