Senior SWE-Bench: 시니어 엔지니어급 에이전트 평가용 오픈소스 벤치마크
1 hour ago
3
- Senior SWE-Bench는 코딩 에이전트를 과도하게 정리된 주니어 과제가 아니라, 실제 시니어 엔지니어가 맡는 기능 개발·버그 수정·성능 문제에 가깝게 평가하려는 벤치마크임
- 기능 과제는 자연어 메시지처럼 읽히는 현실적인 지시사항을 쓰고, 제출된 해법에 맞춰 행동 테스트를 만드는 검증 에이전트로 평가 신뢰성을 높임
- 버그 과제는 사용자 리포트에서 출발해 서비스 실행, 로그, 프로파일링 데이터, 재현 절차 같은 런타임 조사를 요구하는 PR에서 가져옴
- 점수는 런타임 정합성뿐 아니라 코드베이스 관행 기반 품질 지표를 결합해 tasteful solve를 평가하며, 지시사항에 없는 중요한 관행도 검증 대상이 될 수 있음
- 리더보드 최고 모델인 Claude Opus 4.8도 Mini-SWE-Agent max 설정에서 pass@1 24.0% 에 그쳐, 상위 모델도 시니어 수준의 정합성과 taste를 갖춘 해결에는 75% 이상 실패함
실제 PR에 가까운 과제 설계
- Senior SWE-Bench는 코딩 에이전트가 실제로는 시니어 엔지니어처럼 사용되지만, 평가는 주니어용 과제처럼 이뤄지는 간극을 줄이려는 벤치마크임
- 과제는 라이브러리부터 다중 서비스 애플리케이션까지 여러 저장소의 PR에서 가져오며, 각 저장소에서 수백 개 커밋을 작성한 엔지니어가 만든 PR을 대상으로 함
- 주요 과제 유형은 두 갈래로 나뉨
- 여러 단계와 여러 스택에 걸친 기능 PR
- 상당한 런타임 조사가 필요했던 버그·성능 PR
- 공개 과제는 50개이며, 비공개 과제도 50개임
- 포함 저장소 예시는 다음과 같음
기능 과제: 자연어에 가까운 지시사항
- 기능 과제는 과도하게 세분화된 요구사항 대신 자연어 메시지처럼 읽히는 현실적인 지시사항을 사용함
- 이런 과제를 안정적으로 평가하기 위해 검증 에이전트(validation agent) 를 도입함
- 전문가가 설계한 레시피를 사용함
- 제출된 해법에 맞춰 행동 테스트를 작성함
- 지시사항은 자연스러운 에이전트 커뮤니케이션을 반영하며, 길이의 중앙값은 SWE-Bench Pro의 31% 수준임
버그 과제: 사용자 리포트에서 런타임 조사까지
- 버그 과제는 까다로운 사용자 리포트를 반영해, 단순 코드 수정보다 원인 조사와 재현 과정을 더 요구함
- 과제에는 다음 같은 작업이 포함될 수 있음
- 서비스 시작
- 미묘한 런타임 문제 디버깅
- 로그 확인
- 프로파일링 데이터 활용
- 재현 절차 추적
- 출처는 해결 과정에서 상당한 런타임 조사가 필요했던 PR임
평가 기준: 정합성과 taste를 함께 측정
- Senior SWE-Bench는 런타임 정합성 테스트와 여러 품질 지표를 결합해 tasteful solve를 채점함
- 품질 지표는 관찰된 코드베이스 관행을 기반으로 함
- 검증기와 검증 에이전트는 지시사항에 쓰이지 않았더라도, 코드베이스에서 중요한 관행을 테스트할 수 있음
- 리더보드의 solve 조건은 다음 항목을 포함함
- Verifiers pass
- Validation pass
- Rubric > 0.5
- Bloat < 2×
- Practice > 2/5
- Rel. taste > 2/5
리더보드: 최고 모델도 낮은 pass@1
- 리더보드는 Tasteful solve rate(pass@1) 기준으로 결과를 보여줌
- 상위 결과는 다음과 같음
- Claude Opus 4.8, Mini-SWE-Agent max: 24.0%
- Claude Sonnet 5, Mini-SWE-Agent max: 19.4%
- GPT-5.5, Mini-SWE-Agent xhigh: 16.0%
- Claude Opus 4.7, Mini-SWE-Agent max: 14.1%
- GPT-5.4, Mini-SWE-Agent xhigh: 14.0%
- GLM-5.2, Mini-SWE-Agent max: 12.5%
- Kimi K2.6, Mini-SWE-Agent default: 8.2%
- Claude Sonnet 4.6, Mini-SWE-Agent high: 8.2%
- Gemini 3.1 Pro, Mini-SWE-Agent high: 6.1%
- Gemini 3.5 Flash, Mini-SWE-Agent medium: 3.0%
- 가장 강한 최전선 모델도 시니어 수준의 정합성과 taste를 갖춘 과제를 75% 이상 완료하지 못함
과제 범위와 벤치마크 특성
- 과제 유형은 feature, bug, perf, migrat로 표시됨
- 스택은 Py Svc, Elixir, Go, SQL, TS Lib, Py Lib, Rust, TS FE 등을 포함함
- 기능 과제는 여러 서비스에 걸칠 수 있으며, 과제당 평균 11개 파일을 건드림
- 긴 작업 흐름을 요구하도록 설계돼 가장 강한 에이전트도 수백 단계가 필요함
- 참조 해법의 SLOC와 파일 수는 세 벤치마크에서 동일한 방식으로 측정됨
- 지시사항 길이는 하네스 보일러플레이트를 제외함
- 다른 벤치마크의 토큰 수와 단계 수는 각 벤치마크의 자체 보고 지표를 기반으로 함
-
Homepage
-
Tech blog
- Senior SWE-Bench: 시니어 엔지니어급 에이전트 평가용 오픈소스 벤치마크