Senior SWE-Bench: 시니어 엔지니어급 에이전트 평가용 오픈소스 벤치마크

1 hour ago 3

Senior SWE-Bench는 코딩 에이전트를 과도하게 정리된 주니어 과제가 아니라, 실제 시니어 엔지니어가 맡는 기능 개발·버그 수정·성능 문제에 가깝게 평가하려는 벤치마크임
기능 과제는 자연어 메시지처럼 읽히는 현실적인 지시사항을 쓰고, 제출된 해법에 맞춰 행동 테스트를 만드는 검증 에이전트로 평가 신뢰성을 높임
버그 과제는 사용자 리포트에서 출발해 서비스 실행, 로그, 프로파일링 데이터, 재현 절차 같은 런타임 조사를 요구하는 PR에서 가져옴
점수는 런타임 정합성뿐 아니라 코드베이스 관행 기반 품질 지표를 결합해 tasteful solve를 평가하며, 지시사항에 없는 중요한 관행도 검증 대상이 될 수 있음
리더보드 최고 모델인 Claude Opus 4.8도 Mini-SWE-Agent max 설정에서 pass@1 24.0% 에 그쳐, 상위 모델도 시니어 수준의 정합성과 taste를 갖춘 해결에는 75% 이상 실패함

실제 PR에 가까운 과제 설계

Senior SWE-Bench는 코딩 에이전트가 실제로는 시니어 엔지니어처럼 사용되지만, 평가는 주니어용 과제처럼 이뤄지는 간극을 줄이려는 벤치마크임
과제는 라이브러리부터 다중 서비스 애플리케이션까지 여러 저장소의 PR에서 가져오며, 각 저장소에서 수백 개 커밋을 작성한 엔지니어가 만든 PR을 대상으로 함
주요 과제 유형은 두 갈래로 나뉨
- 여러 단계와 여러 스택에 걸친 기능 PR
- 상당한 런타임 조사가 필요했던 버그·성능 PR
공개 과제는 50개이며, 비공개 과제도 50개임
포함 저장소 예시는 다음과 같음
- posthog 8개
- electric 6개
- gitea 6개
- better-auth 4개
- harbor 4개
- 그 외 7개 저장소

기능 과제: 자연어에 가까운 지시사항

기능 과제는 과도하게 세분화된 요구사항 대신 자연어 메시지처럼 읽히는 현실적인 지시사항을 사용함
이런 과제를 안정적으로 평가하기 위해 검증 에이전트(validation agent) 를 도입함
- 전문가가 설계한 레시피를 사용함
- 제출된 해법에 맞춰 행동 테스트를 작성함
지시사항은 자연스러운 에이전트 커뮤니케이션을 반영하며, 길이의 중앙값은 SWE-Bench Pro의 31% 수준임

버그 과제: 사용자 리포트에서 런타임 조사까지

버그 과제는 까다로운 사용자 리포트를 반영해, 단순 코드 수정보다 원인 조사와 재현 과정을 더 요구함
과제에는 다음 같은 작업이 포함될 수 있음
- 서비스 시작
- 미묘한 런타임 문제 디버깅
- 로그 확인
- 프로파일링 데이터 활용
- 재현 절차 추적
출처는 해결 과정에서 상당한 런타임 조사가 필요했던 PR임

평가 기준: 정합성과 taste를 함께 측정

Senior SWE-Bench는 런타임 정합성 테스트와 여러 품질 지표를 결합해 tasteful solve를 채점함
품질 지표는 관찰된 코드베이스 관행을 기반으로 함
검증기와 검증 에이전트는 지시사항에 쓰이지 않았더라도, 코드베이스에서 중요한 관행을 테스트할 수 있음
리더보드의 solve 조건은 다음 항목을 포함함
- Verifiers pass
- Validation pass
- Rubric > 0.5
- Bloat < 2×
- Practice > 2/5
- Rel. taste > 2/5

리더보드: 최고 모델도 낮은 pass@1

리더보드는 Tasteful solve rate(pass@1) 기준으로 결과를 보여줌
상위 결과는 다음과 같음
- Claude Opus 4.8, Mini-SWE-Agent max: 24.0%
- Claude Sonnet 5, Mini-SWE-Agent max: 19.4%
- GPT-5.5, Mini-SWE-Agent xhigh: 16.0%
- Claude Opus 4.7, Mini-SWE-Agent max: 14.1%
- GPT-5.4, Mini-SWE-Agent xhigh: 14.0%
- GLM-5.2, Mini-SWE-Agent max: 12.5%
- Kimi K2.6, Mini-SWE-Agent default: 8.2%
- Claude Sonnet 4.6, Mini-SWE-Agent high: 8.2%
- Gemini 3.1 Pro, Mini-SWE-Agent high: 6.1%
- Gemini 3.5 Flash, Mini-SWE-Agent medium: 3.0%
가장 강한 최전선 모델도 시니어 수준의 정합성과 taste를 갖춘 과제를 75% 이상 완료하지 못함

과제 범위와 벤치마크 특성

과제 유형은 feature, bug, perf, migrat로 표시됨
스택은 Py Svc, Elixir, Go, SQL, TS Lib, Py Lib, Rust, TS FE 등을 포함함
기능 과제는 여러 서비스에 걸칠 수 있으며, 과제당 평균 11개 파일을 건드림
긴 작업 흐름을 요구하도록 설계돼 가장 강한 에이전트도 수백 단계가 필요함
참조 해법의 SLOC와 파일 수는 세 벤치마크에서 동일한 방식으로 측정됨
지시사항 길이는 하네스 보일러플레이트를 제외함
다른 벤치마크의 토큰 수와 단계 수는 각 벤치마크의 자체 보고 지표를 기반으로 함

Read Entire Article