Show GN: 수능 국어 LLM 벤치마크 리더보드 오픈

2 weeks ago 7

24 수능 국어 o1-preview 1등급 달성 (88점 1등급, 상위 4%)
gpt-4o가 현재 1위를 달리고 있으며 llama-3.1-405B-instruct가 2위, Qwen-2.5-72B가 3위
- 아직 gpt o1-preview외에는 3~4등급을 겉돌고 있음
- 많은 모델이 한국어 언어영역에서의 Human performance를 따라잡는데에는 어려움이 있다는것을 알 수 있음.
매년 새로운 수능 국어라는 고품질 데이터셋을 통해 LLM의 성능을 평가
- 다양한 분야의 지문 (인문, 사회, 과학, 기술, 예술), 문학, 화법과 작문
실제 수능과 동일하게 표준점수와 등급 체계를 사용하여, Human performance와 LLM의 performance를 비교
본인의 huggingFace finetuning모델 혹은 궁금한 모델 벤치마킹 신청 가능

수능 국어 lllm 벤치마크 리더보드를 오픈했습니다!

이 리더보드는 고품질의 수능 국어 문제를 기반으로 LLM의 한국어 언어 능력을 측정합니다. 수능의 표준점수와 등급 산출 방식을 적용하여 모델의 성능을 Human performance와 비교할 수 있는 리더보드를 제공하며, 이를 통해 사람들과 정보를 공유하기 위해 개설되었습니다.

피드백 언제든지 환영합니다!

i.e)

모델 평가를 위한 gpu 소스가 현재 부족한 상황입니다! 혹시 GPU Donation이 가능하신분이 계시다면 정말 감사하겠습니다!
Api 비용 문제로 o1-preview와 테스트하지 못한 상황이며 o1 정식버전이 나오는대로 테스트할 예정입니다.

Read Entire Article