-
Putnam-AXIOM 벤치마크 소개
- Putnam-AXIOM은 대형 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위한 도전적인 벤치마크임.
- William Lowell Putnam Mathematical Competition의 236개 수학 문제와 단계별 솔루션을 포함함.
- 데이터 오염을 방지하기 위해 52개의 문제에 기능적 변형을 적용한 Putnam-AXIOM Variation 벤치마크를 생성함.
- 문제의 요소(변수, 상수 등)를 프로그램적으로 변경하여 온라인에 없는 새로운 문제를 무한히 생성할 수 있음.
-
벤치마크의 중요성 및 결과
- 대부분의 모델이 변형된 문제에서 원래 문제보다 정확도가 크게 낮아짐.
- OpenAI의 o1-preview 모델이 Putnam-AXIOM Original에서 41.95%의 정확도를 기록했으나, 변형된 데이터셋에서는 약 30%의 정확도 감소를 경험함.
-
리뷰어 피드백
-
리뷰어 9XA: 벤치마크가 문제 형식화, 답변 평등성 검사 등에서 노이즈를 최소화하도록 설계되었으나, 오염 방지 수준이 충분하지 않을 수 있음. 기능적 변형이 53개 문제에만 적용되어 평가의 힘이 감소할 수 있음.
-
리뷰어 krr4: 데이터셋이 236개의 예제로 구성되어 벤치마크로서 설득력이 부족할 수 있음. 대부분의 모델이 낮은 정확도를 보여 문제의 난이도가 더 계층적이어야 함.
-
리뷰어 Nbvs: 수학적 문제 해결 능력을 평가하기 위한 도전적인 문제 세트를 제공하는 좋은 기여임. 문제 변형이 현재의 박스 기반 평가 체계에서 문제 손실을 줄이는 좋은 전략이 될 수 있음.
-
리뷰어 MsMi: 새로운 어려운 추론 벤치마크로, 강력한 모델도 이 벤치마크에서 잘 수행하지 못함. "\boxed{}" 명령어 사용을 요구하여 벤치마크의 표현력을 제한함.
-
추가 질문 및 제안
- "\boxed{}" 명령어를 제대로 사용하지 않아 잘못 채점된 문제의 수에 대한 질문.
- 문제를 계속 편집하여 어떤 모델도 암기하지 못한 데이터셋을 유지할 수 있는 알고리듬적 방법에 대한 질문.