Senior SWE-Bench: 시니어 엔지니어급 에이전트 평가용 오픈소스 벤치마크

1 hour ago 3
  • Senior SWE-Bench는 코딩 에이전트를 과도하게 정리된 주니어 과제가 아니라, 실제 시니어 엔지니어가 맡는 기능 개발·버그 수정·성능 문제에 가깝게 평가하려는 벤치마크임
  • 기능 과제는 자연어 메시지처럼 읽히는 현실적인 지시사항을 쓰고, 제출된 해법에 맞춰 행동 테스트를 만드는 검증 에이전트로 평가 신뢰성을 높임
  • 버그 과제는 사용자 리포트에서 출발해 서비스 실행, 로그, 프로파일링 데이터, 재현 절차 같은 런타임 조사를 요구하는 PR에서 가져옴
  • 점수는 런타임 정합성뿐 아니라 코드베이스 관행 기반 품질 지표를 결합해 tasteful solve를 평가하며, 지시사항에 없는 중요한 관행도 검증 대상이 될 수 있음
  • 리더보드 최고 모델인 Claude Opus 4.8도 Mini-SWE-Agent max 설정에서 pass@1 24.0% 에 그쳐, 상위 모델도 시니어 수준의 정합성과 taste를 갖춘 해결에는 75% 이상 실패함

실제 PR에 가까운 과제 설계

  • Senior SWE-Bench는 코딩 에이전트가 실제로는 시니어 엔지니어처럼 사용되지만, 평가는 주니어용 과제처럼 이뤄지는 간극을 줄이려는 벤치마크임
  • 과제는 라이브러리부터 다중 서비스 애플리케이션까지 여러 저장소의 PR에서 가져오며, 각 저장소에서 수백 개 커밋을 작성한 엔지니어가 만든 PR을 대상으로 함
  • 주요 과제 유형은 두 갈래로 나뉨
    • 여러 단계와 여러 스택에 걸친 기능 PR
    • 상당한 런타임 조사가 필요했던 버그·성능 PR
  • 공개 과제는 50개이며, 비공개 과제도 50개임
  • 포함 저장소 예시는 다음과 같음

기능 과제: 자연어에 가까운 지시사항

  • 기능 과제는 과도하게 세분화된 요구사항 대신 자연어 메시지처럼 읽히는 현실적인 지시사항을 사용함
  • 이런 과제를 안정적으로 평가하기 위해 검증 에이전트(validation agent) 를 도입함
    • 전문가가 설계한 레시피를 사용함
    • 제출된 해법에 맞춰 행동 테스트를 작성함
  • 지시사항은 자연스러운 에이전트 커뮤니케이션을 반영하며, 길이의 중앙값은 SWE-Bench Pro의 31% 수준임

버그 과제: 사용자 리포트에서 런타임 조사까지

  • 버그 과제는 까다로운 사용자 리포트를 반영해, 단순 코드 수정보다 원인 조사와 재현 과정을 더 요구함
  • 과제에는 다음 같은 작업이 포함될 수 있음
    • 서비스 시작
    • 미묘한 런타임 문제 디버깅
    • 로그 확인
    • 프로파일링 데이터 활용
    • 재현 절차 추적
  • 출처는 해결 과정에서 상당한 런타임 조사가 필요했던 PR임

평가 기준: 정합성과 taste를 함께 측정

  • Senior SWE-Bench는 런타임 정합성 테스트와 여러 품질 지표를 결합해 tasteful solve를 채점함
  • 품질 지표는 관찰된 코드베이스 관행을 기반으로 함
  • 검증기와 검증 에이전트는 지시사항에 쓰이지 않았더라도, 코드베이스에서 중요한 관행을 테스트할 수 있음
  • 리더보드의 solve 조건은 다음 항목을 포함함
    • Verifiers pass
    • Validation pass
    • Rubric > 0.5
    • Bloat < 2×
    • Practice > 2/5
    • Rel. taste > 2/5

리더보드: 최고 모델도 낮은 pass@1

  • 리더보드는 Tasteful solve rate(pass@1) 기준으로 결과를 보여줌
  • 상위 결과는 다음과 같음
    • Claude Opus 4.8, Mini-SWE-Agent max: 24.0%
    • Claude Sonnet 5, Mini-SWE-Agent max: 19.4%
    • GPT-5.5, Mini-SWE-Agent xhigh: 16.0%
    • Claude Opus 4.7, Mini-SWE-Agent max: 14.1%
    • GPT-5.4, Mini-SWE-Agent xhigh: 14.0%
    • GLM-5.2, Mini-SWE-Agent max: 12.5%
    • Kimi K2.6, Mini-SWE-Agent default: 8.2%
    • Claude Sonnet 4.6, Mini-SWE-Agent high: 8.2%
    • Gemini 3.1 Pro, Mini-SWE-Agent high: 6.1%
    • Gemini 3.5 Flash, Mini-SWE-Agent medium: 3.0%
  • 가장 강한 최전선 모델도 시니어 수준의 정합성과 taste를 갖춘 과제를 75% 이상 완료하지 못함

과제 범위와 벤치마크 특성

  • 과제 유형은 feature, bug, perf, migrat로 표시됨
  • 스택은 Py Svc, Elixir, Go, SQL, TS Lib, Py Lib, Rust, TS FE 등을 포함함
  • 기능 과제는 여러 서비스에 걸칠 수 있으며, 과제당 평균 11개 파일을 건드림
  • 긴 작업 흐름을 요구하도록 설계돼 가장 강한 에이전트도 수백 단계가 필요함
  • 참조 해법의 SLOC와 파일 수는 세 벤치마크에서 동일한 방식으로 측정됨
  • 지시사항 길이는 하네스 보일러플레이트를 제외함
  • 다른 벤치마크의 토큰 수와 단계 수는 각 벤치마크의 자체 보고 지표를 기반으로 함
Read Entire Article