Step 3.5 Flash – 오픈소스 기반 모델, 빠른 추론과 안정적 실행 지원

1 week ago 49

Step 3.5 Flash는 1960억 매개변수 중 110억만 활성화하는 희소 Mixture of Experts 구조로, 고속 추론과 실시간 상호작용을 지원하는 오픈소스 기반 대형 언어 모델임
Multi-Token Prediction(MTP-3) 과 Sliding Window Attention(3:1 비율) 을 결합해 초당 최대 350토큰의 생성 속도와 256K 컨텍스트 윈도우를 구현함
SWE-bench Verified 74.4% , Terminal-Bench 2.0 51.0% 등 코딩·에이전트 벤치마크에서 안정적 성능을 보이며, 로컬 환경(Mac Studio M4 Max, NVIDIA DGX Spark) 에서도 실행 가능함
도구 활용 기반 추론과 멀티에이전트 오케스트레이션을 통해 금융, 데이터 분석, 연구 자동화 등 실제 업무 시나리오에서 높은 신뢰성과 실행력을 입증함
강화학습 기반의 MIS-PO 최적화 기법으로 장기 추론 안정성을 확보하며, 고성능 모델 대비 낮은 비용으로 프론티어급 추론·행동 능력을 제공함

모델 개요 및 성능

Step 3.5 Flash는 고속 추론과 에이전트 기능을 결합한 오픈소스 기반 foundation model로, 평균 벤치마크 점수 81.0을 기록
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) 등 주요 모델보다 높은 평균 점수
희소 MoE 구조로 196B 중 11B 파라미터만 활성화, 효율적 연산으로 실시간 대응 가능
MTP-3 기반으로 일반 사용 시 100~300 tok/s, 코딩 작업 시 최대 350 tok/s 생성 속도 달성
SWE-bench Verified 74.4% , Terminal-Bench 2.0 51.0% 로 장기적 코드·에이전트 작업에서 안정적 성능 확보
256K 컨텍스트 윈도우를 3:1 SWA 구조로 구현, 긴 문맥에서도 비용 효율 유지

도구 기반 추론(tool-augmented reasoning) 을 통해 수학·코딩·데이터 분석 등에서 성능 향상
- Python 실행 통합 시 AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) 등에서 향상된 점수 기록
주식 투자 시나리오에서 80개 이상 MCP 도구를 조합해 데이터 수집·분석·알림 자동화 수행
Autonomous Business Intelligence Engine은 CSV 처리부터 예측까지 자동화, 데이터 품질 격차(1.6배) 식별
Large-Scale Repository Architect는 대규모 코드베이스를 분석해 설계 패턴과 구현 세부를 연결하는 전문 위키 생성

ResearchRubrics 벤치마크에서 65.3%로 Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7)보다 높은 점수
- 단일 ReAct 기반 루프에서 계획·검색·검증·작성 과정을 수행
Claude Code 환경에서 데이터 분석 벤치마크 39.6% 달성, GPT-5.2(39.3)보다 근소하게 우위
Multi-Agent Framework를 통해 Master Agent가 검색·검증·요약 에이전트를 조율, 구조화된 결과 생성
Cloud-Device Synergy로 Step-GUI와 연동 시 AndroidDaily Hard 벤치마크에서 57점(단독 40점 대비) 기록

Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) 도입
- 중요도 샘플링 대신 이진 필터링으로 불안정한 샘플 제거
- truncation-aware value bootstrapping과 routing confidence monitoring으로 장기 추론 안정화
이 구조는 수학·코딩·도구 활용 전반에서 지속적 자기개선을 가능하게 함

Step 3.5 Flash는 Reasoning, Coding, Agentic 세 영역에서 균형 잡힌 상위권 성능
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
디코딩 비용은 128K 컨텍스트 기준 1.0x로, DeepSeek V3.2(6.0x), Kimi K2.5(18.9x)보다 효율적