LLM 시스템을 평가하는 방법

22 hours ago 2

  • LLM(대형 언어 모델) 기반 애플리케이션은 비결정적 출력 특성 때문에 전통적인 테스트 방식으로는 적절한 평가가 어려움
  • 따라서 LLM 시스템의 성능을 유지하고 개선하기 위해 전용 평가 방식(evals) 이 필수적임

eval이 중요한 이유

  • 성능 기준 수립: 모델 성능에 대한 방향성을 제공하고 비교 가능한 벤치마크 설정
  • 일관성과 신뢰성 확보: 예측 불가능한 출력을 사전에 발견하고 제어
  • 개선 방향 제공: 성능 저하 지점을 명확히 하여 타겟팅된 개선 가능
  • 회귀 테스트 가능: 변경 이후에도 성능이 유지되는지 확인하여 안정성 보장

사전 배포 평가의 핵심 요소

사전 배포 평가가 중요한 이유

  • 성능을 조기에 측정하고 비교 가능
  • 코드, 프롬프트, 파라미터 변화 시 회귀 문제 사전 탐지 가능

평가 수행 방법

1. Ground Truth 데이터셋 생성

  • 전문가가 작성한 질문-답변 쌍으로 구성된 데이터셋 필요
  • 실제 유저 질문 유형을 반영한 다양한 시나리오 포함이 중요
LLM이 Ground Truth를 생성할 수 있을까?
  • LLM은 보조 역할은 가능하나 단독 생성은 권장되지 않음
    • 사용자 행동 이해 부족
    • 문맥에 맞는 질문·답변은 인간 검토 필요
    • 도메인 적합성과 품질 보장을 위해 인간 감수가 필수

2. 평가 지표 선정

  • Answer relevancy: 질문에 대해 직접적이고 유의미한 답을 제공하는지
  • Coherence: 응답의 논리적 흐름과 명확성
  • Contextual relevance: 대화 문맥을 얼마나 잘 고려하는지
  • Responsibility: 윤리성, 유해성, 편향성 여부 등 책임감 있는 출력 여부

3. RAG 평가 지표

  • 생성 지표:
    • Faithfulness: 사실 기반 여부
    • Answer relevancy: 응답의 적절성
  • 검색 지표:
    • Context precision: 관련 정보의 신호 대비 잡음 비율
    • Context recall: 정답을 위해 필요한 정보를 잘 검색했는지

4. 태스크 특화 지표

  • 특정 태스크에 맞춘 맞춤형 평가 지표 필요
    • 예: 요약에서는 Fluency, Coherence, Consistency, Relevance

5. 점수 계산 및 시스템 튜닝

  • 각 지표에 대해 실제 출력과 Ground Truth를 비교하여 점수 산출
  • 예:
    • Recall 저조: chunk size 줄이기
    • Precision 낮음: 리랭킹 도입 고려
  • 평가 라이브러리 예시: DeepEval, Relari-ai

LLM-as-Judge 평가 기법

  • GPT-4 같은 LLM을 기반으로 Ground Truth 없이 평가
  • 예시: G-eval 프레임워크, Vicuna, QLoRA 논문
  • 단점:
    • 일부 지표(예: Context Recall)는 Ground Truth 없이는 측정 불가
    • 정확도, 세밀도 면에서는 인간 기반 평가가 우수
  • 결론: LLM-as-Judge + Ground Truth 병행이 이상적

배포 단계에서 평가를 통합하는 방법

  • 평가 자동화를 배포 파이프라인에 통합
    • 코드 커밋 또는 배포 전 자동 테스트 수행
    • 예: Giskard를 활용한 유해성, 환각 검출 자동 테스트
  • 데이터 전처리 및 수집 단계에 대한 테스트도 포함해야 함

배포 후 평가와 데이터 플라이휠

운영 중 모니터링

  • 실시간 입력/출력 추적
  • 도메인 전문가와의 정기적인 평가 세션
  • 사용자 피드백 채널 확보

데이터 플라이휠 전략

  • 운영 중 발생한 데이터와 피드백을 활용해 지속적인 개선 루프 구축
    • 예: 사용자 질문 패턴 분석 → 검색 방식 개선
    • 메트릭 기반으로 프롬프트, 인퍼런스 파라미터, 검색 방식 등 조정
  • 사용자 행동 및 실패 시나리오에 따라 지표 변경도 필요함

결론: “Evals First” 전략이 신뢰성 높은 LLM 제품의 핵심

  • LLM 애플리케이션 개발 초기부터 평가 중심 사고방식을 도입해야 함
  • 핵심은 올바른 지표와 기준을 초기에 정의하고, 이를 개발 및 배포의 기준점으로 삼는 것
  • 평가를 사후 활동이 아닌 핵심 개발 프로세스로 설정해야 사용자 중심의 신뢰할 수 있는 AI 시스템 구축 가능

Read Entire Article