Step 3.5 Flash – 오픈소스 기반 모델, 빠른 추론과 안정적 실행 지원

1 week ago 49

  • Step 3.5 Flash는 1960억 매개변수 중 110억만 활성화하는 희소 Mixture of Experts 구조로, 고속 추론과 실시간 상호작용을 지원하는 오픈소스 기반 대형 언어 모델임
  • Multi-Token Prediction(MTP-3)Sliding Window Attention(3:1 비율) 을 결합해 초당 최대 350토큰의 생성 속도와 256K 컨텍스트 윈도우를 구현함
  • SWE-bench Verified 74.4% , Terminal-Bench 2.0 51.0% 등 코딩·에이전트 벤치마크에서 안정적 성능을 보이며, 로컬 환경(Mac Studio M4 Max, NVIDIA DGX Spark) 에서도 실행 가능함
  • 도구 활용 기반 추론멀티에이전트 오케스트레이션을 통해 금융, 데이터 분석, 연구 자동화 등 실제 업무 시나리오에서 높은 신뢰성과 실행력을 입증함
  • 강화학습 기반의 MIS-PO 최적화 기법으로 장기 추론 안정성을 확보하며, 고성능 모델 대비 낮은 비용으로 프론티어급 추론·행동 능력을 제공함

모델 개요 및 성능

  • Step 3.5 Flash는 고속 추론과 에이전트 기능을 결합한 오픈소스 기반 foundation model로, 평균 벤치마크 점수 81.0을 기록
    • GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) 등 주요 모델보다 높은 평균 점수
  • 희소 MoE 구조로 196B 중 11B 파라미터만 활성화, 효율적 연산으로 실시간 대응 가능
  • MTP-3 기반으로 일반 사용 시 100~300 tok/s, 코딩 작업 시 최대 350 tok/s 생성 속도 달성
  • SWE-bench Verified 74.4% , Terminal-Bench 2.0 51.0% 로 장기적 코드·에이전트 작업에서 안정적 성능 확보
  • 256K 컨텍스트 윈도우를 3:1 SWA 구조로 구현, 긴 문맥에서도 비용 효율 유지

실제 활용 사례 및 도구 활용

  • 도구 기반 추론(tool-augmented reasoning) 을 통해 수학·코딩·데이터 분석 등에서 성능 향상
    • Python 실행 통합 시 AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) 등에서 향상된 점수 기록
  • 주식 투자 시나리오에서 80개 이상 MCP 도구를 조합해 데이터 수집·분석·알림 자동화 수행
  • Autonomous Business Intelligence Engine은 CSV 처리부터 예측까지 자동화, 데이터 품질 격차(1.6배) 식별
  • Large-Scale Repository Architect는 대규모 코드베이스를 분석해 설계 패턴과 구현 세부를 연결하는 전문 위키 생성

연구 및 에이전트 성능

  • ResearchRubrics 벤치마크에서 65.3%로 Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7)보다 높은 점수
    • 단일 ReAct 기반 루프에서 계획·검색·검증·작성 과정을 수행
  • Claude Code 환경에서 데이터 분석 벤치마크 39.6% 달성, GPT-5.2(39.3)보다 근소하게 우위
  • Multi-Agent Framework를 통해 Master Agent가 검색·검증·요약 에이전트를 조율, 구조화된 결과 생성
  • Cloud-Device Synergy로 Step-GUI와 연동 시 AndroidDaily Hard 벤치마크에서 57점(단독 40점 대비) 기록

아키텍처 및 기술적 특징

  • Sparse MoE 백본으로 글로벌 용량(196B)과 토큰당 연산(11B)을 분리, 추론 비용과 속도 최적화
  • Sliding-Window Attention + Full Attention(3:1) 구조로 긴 문맥 처리 시 효율 유지
  • Head-wise Gated Attention으로 정보 흐름을 동적으로 제어, 수치 안정성 확보
  • 350 tok/s의 디코딩 처리량을 NVIDIA Hopper GPU에서 달성
  • INT4 GGUF 양자화 모델을 통해 로컬 추론(20 tok/s, 256K 컨텍스트) 지원

강화학습 프레임워크

  • Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) 도입
    • 중요도 샘플링 대신 이진 필터링으로 불안정한 샘플 제거
    • truncation-aware value bootstrappingrouting confidence monitoring으로 장기 추론 안정화
  • 이 구조는 수학·코딩·도구 활용 전반에서 지속적 자기개선을 가능하게 함

벤치마크 비교

  • Step 3.5 Flash는 Reasoning, Coding, Agentic 세 영역에서 균형 잡힌 상위권 성능
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • 디코딩 비용은 128K 컨텍스트 기준 1.0x로, DeepSeek V3.2(6.0x), Kimi K2.5(18.9x)보다 효율적

한계 및 향후 방향

  • 토큰 효율성: Gemini 3.0 Pro 대비 동일 품질에 더 긴 생성 필요
  • 전문성 통합: 범용성과 전문성의 효율적 결합을 위한 on-policy distillation 연구 진행 중
  • 에이전트형 RL 확장: 전문 업무·연구 수준의 복잡한 작업으로 RL 적용 확대 예정
  • 운영 안정성: 장기 대화나 도메인 전환 시 반복 추론·혼합 언어 출력 가능성 존재

배포 및 접근성

  • OpenClaw 플랫폼과 통합되어 간단한 설치 및 모델 등록으로 사용 가능
  • API 플랫폼(영문/중문), 웹·모바일 앱(iOS/Android) 을 통해 접근 가능
  • Discord 커뮤니티를 통해 업데이트 및 지원 제공

Read Entire Article