수능 국어 lllm 벤치마크 리더보드를 오픈했습니다! 이 리더보드는 고품질의 수능 국어 문제를 기반으로 LLM의 한국어 언어 능력을 측정합니다. 수능의 표준점수와 등급 산출 방식을 적용하여 모델의 성능을 Human performance와 비교할 수 있는 리더보드를 제공하며, 이를 통해 사람들과 정보를 공유하기 위해 개설되었습니다. 피드백 언제든지 환영합니다! i.e) 모델 평가를 위한 gpu 소스가 현재 부족한 상황입니다! 혹시 GPU Donation이 가능하신분이 계시다면 정말 감사하겠습니다! Api 비용 문제로 o1-preview와 테스트하지 못한 상황이며 o1 정식버전이 나오는대로 테스트할 예정입니다.