Show GN: 수능 국어 LLM 벤치마크 리더보드 오픈

2 weeks ago 7

  • 24 수능 국어 o1-preview 1등급 달성 (88점 1등급, 상위 4%)
  • gpt-4o가 현재 1위를 달리고 있으며 llama-3.1-405B-instruct가 2위, Qwen-2.5-72B가 3위
    • 아직 gpt o1-preview외에는 3~4등급을 겉돌고 있음
    • 많은 모델이 한국어 언어영역에서의 Human performance를 따라잡는데에는 어려움이 있다는것을 알 수 있음.
  • 매년 새로운 수능 국어라는 고품질 데이터셋을 통해 LLM의 성능을 평가
    • 다양한 분야의 지문 (인문, 사회, 과학, 기술, 예술), 문학, 화법과 작문
  • 실제 수능과 동일하게 표준점수와 등급 체계를 사용하여, Human performance와 LLM의 performance를 비교
  • 본인의 huggingFace finetuning모델 혹은 궁금한 모델 벤치마킹 신청 가능

수능 국어 lllm 벤치마크 리더보드를 오픈했습니다!

이 리더보드는 고품질의 수능 국어 문제를 기반으로 LLM의 한국어 언어 능력을 측정합니다. 수능의 표준점수와 등급 산출 방식을 적용하여 모델의 성능을 Human performance와 비교할 수 있는 리더보드를 제공하며, 이를 통해 사람들과 정보를 공유하기 위해 개설되었습니다.

피드백 언제든지 환영합니다!

i.e)

  • 모델 평가를 위한 gpu 소스가 현재 부족한 상황입니다! 혹시 GPU Donation이 가능하신분이 계시다면 정말 감사하겠습니다!

  • Api 비용 문제로 o1-preview와 테스트하지 못한 상황이며 o1 정식버전이 나오는대로 테스트할 예정입니다.

Read Entire Article