Qwen3.6-35B-A3B: 모든 사용자를 위한 에이전트형 코딩 성능 공개

1 week ago 10
  • 총 350억 파라미터 중 30억만 활성화되는 희소 Mixture-of-Experts(MoE) 구조로, 효율성과 성능을 동시에 달성한 오픈소스 모델임
  • 이전 세대 대비 에이전트형 코딩 능력이 크게 향상되어, Qwen3.5-27B나 Gemma4-31B 같은 대형 밀집 모델과 경쟁 가능한 수준을 보임
  • SWE-bench, Terminal-Bench, Claw-Eval 등 주요 코딩 벤치마크에서 높은 점수를 기록하고, 멀티모달 과제에서도 Claude Sonnet 4.5급 성능을 달성함
  • Alibaba Cloud Model Studio API, Hugging Face, ModelScope를 통해 공개 가중치와 API 접근이 가능하며, OpenClaw·Claude Code 등 다양한 코딩 도구와 통합 지원함
  • 활성 파라미터 30억 개로 대형 모델에 필적하는 효율적 오픈 모델의 새로운 기준을 제시함

Qwen3.6-35B-A3B 개요

  • Qwen3.6-35B-A3B는 총 350억 파라미터 중 30억만 활성화되는 희소 Mixture-of-Experts(MoE) 모델로, 효율성과 성능을 동시에 갖춘 오픈소스 모델임
  • 이전 버전인 Qwen3.5-35B-A3B보다 에이전트형 코딩(agentic coding) 성능이 크게 향상되었으며, Qwen3.5-27B나 Gemma4-31B 같은 대형 밀집 모델과 경쟁 가능한 수준을 보임
  • 멀티모달 추론과 비추론 모드를 모두 지원하며, Qwen Studio, API, Hugging Face, ModelScope를 통해 공개됨
  • 모델은 Qwen Studio에서 대화형으로 사용 가능하며, Alibaba Cloud Model Studio API(qwen3.6-flash)를 통해 호출하거나 직접 호스팅 가능

성능 평가

  • 언어 및 코딩 성능

    • Qwen3.6-35B-A3B는 활성 파라미터 30억 개만으로 Qwen3.5-27B(밀집형 270억 파라미터)를 여러 주요 코딩 벤치마크에서 능가함
    • SWE-bench Verified 73.4, Terminal-Bench 51.5, Claw-Eval 평균 68.7 등에서 높은 점수를 기록
    • QwenWebBench(웹 코드 생성 벤치마크)에서는 1397점을 기록해 동급 모델 중 최고 수준
    • 일반 에이전트 벤치마크(MCPMark, MCP-Atlas, WideSearch 등)에서도 경쟁 모델 대비 우수한 결과를 보임
    • 지식 및 추론 관련 MMLU-Pro, GPQA, AIME26 등에서도 높은 정확도를 유지
  • 평가 환경

    • SWE-Bench 시리즈는 내부 에이전트 스캐폴드(bash + file-edit 도구) 기반으로 200K 컨텍스트 윈도우에서 평가
    • Terminal-Bench 2.0은 3시간 제한, 32 CPU/48GB RAM 환경에서 5회 평균
    • SkillsBench는 API 의존 작업을 제외한 78개 과제에서 평가
    • QwenClawBench와 QwenWebBench는 내부 실사용 분포 기반 벤치마크로, 실제 사용자 환경을 반영
  • 비전-언어 성능

    • Qwen3.6-35B-A3B는 자연 멀티모달 모델로, 30억 활성 파라미터만으로 Claude Sonnet 4.5 수준의 성능을 달성
    • RefCOCO(공간 인지) 92.0, ODInW13 50.8로 공간 지능에서 강점을 보임
    • RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9 등 다양한 비전-언어 과제에서 높은 점수
    • 비디오 이해 벤치마크(VideoMME, VideoMMMU, MLVU 등)에서도 80~86대의 점수를 유지하며 안정적 성능을 보임

Qwen3.6-35B-A3B 활용

  • 배포 및 접근

    • Alibaba Cloud Model Studio API(qwen3.6-flash)를 통해 사용 가능하며, Hugging Face 및 ModelScope에서 오픈 가중치 다운로드 가능
    • Qwen Studio에서 즉시 체험 가능하며, OpenClaw, Claude Code, Qwen Code 등 서드파티 코딩 도우미와 통합 지원
  • API 사용

    • preserve_thinking 기능을 지원해 이전 대화의 사고(thinking) 내용을 유지하며 에이전트형 작업에 적합
    • Alibaba Cloud Model Studio는 OpenAI 및 Anthropic API 규격과 호환되는 chat completions API를 제공
    • 예시 코드에서는 enable_thinking 옵션을 통해 추론 과정(reasoning trace)과 최종 답변을 구분 출력 가능
  • OpenClaw 통합

    • Qwen3.6-35B-A3B는 OpenClaw(구 Moltbot/Clawdbot)와 호환되며, Model Studio와 연결해 터미널 기반 에이전트 코딩 환경 제공
    • 설정 파일(~/.openclaw/openclaw.json)에 Model Studio API 정보를 병합해 사용
    • Node.js 22 이상 환경에서 설치 및 실행 가능
  • Qwen Code 통합

    • Qwen 시리즈에 최적화된 Qwen Code(터미널용 오픈소스 AI 에이전트)와 완전 호환
    • Node.js 20 이상에서 설치 후 /auth 명령으로 인증 절차 수행
  • Claude Code 통합

    • Anthropic API 프로토콜을 지원해 Claude Code에서도 직접 사용 가능
    • 환경 변수로 ANTHROPIC_MODEL="qwen3.6-flash" 설정 후 CLI 실행

요약 및 전망

  • Qwen3.6-35B-A3B는 희소 MoE 구조로도 대형 밀집 모델에 필적하는 에이전트형 코딩 및 추론 능력을 입증
  • 활성 파라미터 30억 개로 효율성과 성능을 모두 달성하며, 멀티모달 벤치마크에서도 우수한 결과를 보임
  • 완전한 오픈소스 체크포인트로 공개되어, 효율적 오픈 모델의 새로운 기준을 제시
  • Qwen 팀은 Qwen3.6 오픈소스 패밀리를 지속 확장할 예정이며, 커뮤니티의 피드백과 활용을 기대

인용 정보

Read Entire Article