Composer: 강화학습으로 구축한 고속 프런티어 모델

2 days ago 6

Cursor가 공개한 Composer는 소프트웨어 엔지니어링을 위한 고속 지능형 에이전트 모델로, 유사 모델 대비 4배 빠른 코드 생성 속도를 달성
실제 대규모 코드베이스 문제를 해결하도록 훈련되며, 검색·편집 도구를 활용해 다양한 난이도의 과제를 수행
Mixture-of-Experts(MoE) 구조와 강화학습(RL) 을 결합해, 코드 편집·계획·답변 등 장기 문맥 이해와 생성을 지원
Cursor Bench 평가를 통해 모델의 정확도뿐 아니라 코드베이스 일관성 및 엔지니어링 관행 준수까지 측정
PyTorch·Ray 기반 비동기 RL 인프라와 MXFP8 저정밀 학습을 활용해 수천 개 GPU에서 효율적 학습 및 추론 속도 향상

Composer 개요

Composer는 소프트웨어 엔지니어링 지능과 속도를 목표로 개발된 새로운 에이전트 모델
- 벤치마크에서 유사 모델 대비 4배 빠른 코드 생성 속도를 기록
- Cursor 내에서 대규모 코드베이스 문제 해결용 에이전트로 최적화됨
모델은 실제 환경에서 검색 및 편집 도구를 사용해 다양한 난이도의 문제를 해결하도록 훈련됨
- 이를 통해 고속 상호작용형 개발 경험을 제공

개발 배경

Composer는 Cursor의 커스텀 코드 자동완성 모델(Cursor Tab) 개발 경험에서 비롯
- 개발자들이 지능적이면서도 반응이 빠른 모델을 선호함을 확인
초기 실험 모델 Cheetah를 기반으로, Composer는 이를 개선한 더 빠르고 똑똑한 버전으로 설계됨
- 목표는 개발 흐름을 유지하면서 즉각적 반응을 제공하는 모델 구축

모델 구조와 학습 방식

Composer는 Mixture-of-Experts(MoE) 언어 모델로, 장기 문맥 이해 및 생성을 지원
강화학습(RL) 을 통해 다양한 개발 환경에서 전문화됨
- 각 학습 단계에서 문제 설명을 받고, 최적의 코드 수정·계획·답변을 생성
- 모델은 파일 읽기·편집, 터미널 명령 실행, 코드베이스 전역 의미 검색 등 도구를 활용
RL 과정에서 모델은 복잡한 검색 수행, 린터 오류 수정, 단위 테스트 작성 및 실행 같은 유용한 행동을 스스로 학습

평가 및 벤치마크

Cursor Bench는 실제 엔지니어 요청과 최적 해답을 포함한 내부 평가 세트
- 모델의 정확도, 코드베이스 추상화 준수, 소프트웨어 엔지니어링 관행 일치도를 측정
Composer는 “Fast Frontier” 등급 모델로, 효율적 추론을 목표로 하는 Haiku 4.5, Gemini Flash 2.5 등과 비교됨
- GPT-5, Sonnet 4.5 등 최상위 Frontier 모델보다 느리지만, 속도 대비 높은 효율성을 보유

인프라 및 시스템 설계

대규모 MoE 모델 학습을 위해 PyTorch와 Ray 기반 비동기 RL 인프라 구축
- MXFP8 MoE 커널, 전문가 병렬화, 하이브리드 샤딩 데이터 병렬화를 결합
- 수천 개 NVIDIA GPU에서 통신 비용을 최소화하며 학습 확장
MXFP8 저정밀 학습을 통해 추론 속도 향상 및 후처리 양자화 불필요
RL 중 모델은 Cursor Agent의 모든 도구를 호출 가능
- 코드 편집, 의미 검색, 문자열 grep, 터미널 명령 실행 등 지원
- 이를 위해 수십만 개의 클라우드 샌드박스 환경을 병렬 실행
- 기존 Background Agents 인프라를 확장해 버스트형 학습 부하를 처리

내부 활용과 배포

Cursor 팀은 Composer를 자체 개발 업무에 적극 활용
- 다수의 엔지니어가 일상적 소프트웨어 개발에 Composer를 사용
이번 공개를 통해 다른 개발자들도 유용하게 활용할 수 있기를 기대

부록: 내부 벤치마크 분류

Fast Frontier: 효율적 추론 모델 (Haiku 4.5, Gemini Flash 2.5 등)
Best Open: 공개 가중치 모델 (Qwen Coder, GLM 4.6 등)
Frontier 7/2025: 2025년 7월 기준 최고 모델
Best Frontier: GPT-5, Sonnet 4.5 등 Composer보다 높은 성능 모델
Tokens per Second 계산은 최신 Anthropic 토크나이저 기준으로 표준화됨

Read Entire Article