MAI-Code-1-Flash

1 day ago 4

MAI-Code-1-Flash는 일상 개발자 워크플로우에서 빠르고 효율적인 코딩 지원을 목표로 한 Microsoft의 새 코딩 모델이며, VS Code의 GitHub Copilot 개인 사용자에게 배포 중임
Microsoft는 이 모델을 GitHub Copilot 하네스에서 직접 학습시켜 실제 개발 환경의 도구·시스템과 더 잘 상호작용하도록 설계함
적응형 응답 길이 제어로 단순 요청에는 간결하게 답하고 복잡한 작업에는 더 많은 추론 예산을 쓰며, 최대 60% 적은 토큰으로 더 어려운 문제를 해결함 {p:60}
Microsoft의 생산 하네스 평가에서 Claude Haiku 4.5보다 4개 핵심 코딩 벤치마크 모두에서 높은 통과율을 보였고, SWE-Bench Pro에서는 51.2% 대 35.2%로 16포인트 앞섬
별도 적대적 추론 벤치마크에서는 186문항·34개 범주에서 85.8% 조정 정확도를 기록했지만, Einstellung trap 같은 핵심 적대 범주는 50% 미만 정확도에 머물러 개선 여지가 있음

출시와 배포

MAI-Code-1-Flash는 빠르고 효율적인 일상 개발자 지원을 위해 만든 Microsoft의 새 코딩 모델임
Microsoft가 처음부터 끝까지 구축했으며, 깨끗하고 적절히 라이선스된 데이터를 사용함
GitHub Copilot 개인 사용자의 VS Code에 배포 중이며, 모델 선택기와 기본 Auto picker 아래에서 사용할 수 있음
추가 설정은 필요 없고, 배포가 진행되면 GitHub Copilot이 Auto picker를 통해 작업을 MAI-Code-1-Flash로 라우팅하거나 모델 선택기에 직접 표시함
피드백은 GitHub Community에서 받을 예정임

MAI-Code-1-Flash는 벤치마크 최적화만이 아니라 개발자가 매일 쓰는 생산 워크플로우를 중심에 두고 만들었음
생산 환경에서 쓰이는 GitHub Copilot 하네스(harness)로 직접 학습해 에이전트형 코딩 작업에서 주변 도구와 시스템을 다루는 방식을 익히도록 설계함
학습 중에는 핵심 소프트웨어 엔지니어링 작업, 저장소 질의응답, 리팩터링, 실제 GitHub Copilot 사용에서 각색한 텔레메트리 기반 작업으로 체크포인트를 평가함
학습·평가·생산 환경을 맞추면 오프라인 개선이 실제 개발자 품질로 이어지도록 돕는다는 설계 목표를 가짐

적응형 솔루션 길이 제어를 학습해 작업 난도에 따라 응답 깊이를 조절함
단순 요청에는 간결하게 답하고, 더 깊은 분석이나 더 넓은 코드 변경이 필요한 문제에는 더 많은 추론 예산을 사용함
개발자는 유용한 출력을 더 빨리 보기 시작할 수 있음
MAI-Code-1-Flash는 최대 60% 적은 토큰으로 더 어려운 문제를 해결하며, 지연 시간 감소, 비용 절감, 토큰 대비 수익 개선, 더 부드러운 대화형 워크플로우를 목표로 함

Microsoft는 SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual, Terminal Bench 2에서 MAI-Code-1-Flash와 Claude Haiku 4.5를 같은 생산 하네스로 평가함
평가는 작업 성공률과 각 작업 완료에 필요한 평균 솔루션 토큰 수를 측정함
MAI-Code-1-Flash는 테스트한 4개 핵심 코딩 벤치마크 모두에서 Claude Haiku 4.5보다 높은 통과율을 기록함
SWE-Bench Pro의 다양한 실제 작업에서는 51.2% 대 35.2%로 16포인트 앞섬
SWE-Bench Verified에서는 최대 60% 적은 토큰으로 더 어려운 문제를 해결해 정확도와 효율이 동시에 개선될 수 있음을 보임

MAI-Code-1-Flash는 표에 나온 모든 벤치마크에서 Claude Haiku 4.5보다 앞섰으며, IF Bench의 정밀 지시 따르기에서는 +28.9로 가장 큰 격차를 보임
Advanced IF의 루브릭 기반 평가에서는 +14.5로 가장 좁은 격차를 보임
강한 지시 따르기 성능은 에이전트형 도구 사용으로도 이어짐
수학, 과학, 시각 생성 코딩의 핵심 추론 능력에서도 Claude Haiku 4.5를 앞섬
표준 벤치마크는 추론만큼 암기도 보상할 수 있어, Monty Hall 문제를 본 모델은 정답을 맞히지만 상품을 뒤집으면 실패할 수 있음
Microsoft는 inverted classics, impossible tasks, underdetermined scenarios 같은 적대적 함정을 중심으로 186문항·34개 범주의 벤치마크를 만들었음
MAI-Code-1-Flash는 이 적대적 벤치마크에서 Claude Haiku 4.5를 전체적으로 넘었고 85.8% 조정 정확도에 도달함
추론, 지시 따르기, 불가능한 문제 인식에서 특히 강한 성능을 보였지만, Einstellung trap 같은 핵심 적대 범주는 50% 미만 정확도에 머물러 개선 여지가 남아 있음