Qwen3.6-27B: 270억 dense 모델에서 플래그십급 코딩 성능

12 hours ago 3
  • 270억 파라미터 dense 멀티모달 모델로 공개, 하나의 통합 체크포인트에서 thinking·non-thinking 모드와 이미지·비디오 처리를 함께 지원
  • agentic coding 성능이 주요 코딩 벤치마크 전반에서 이전 세대 오픈소스 플래그십 Qwen3.5-397B-A17B를 상회하며, 총 파라미터 수가 최대 15배 큰 모델들까지 능가함
  • SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2를 기록했고, GPQA Diamond 87.8, AIME26 94.1 등 텍스트 추론과 STEM 평가 수치도 함께 공개
  • dense 아키텍처 채택으로 MoE 라우팅 복잡성이 없고 배포가 단순하며, open weights, API, Qwen Studio 즉시 사용 경로와 OpenClaw·Qwen Code·Claude Code 통합 지원 제공
  • 잘 학습된 dense 모델이 개발자 핵심 작업에서 훨씬 더 큰 이전 세대를 넘어설 수 있음을 보여주며, Qwen3.6 계열의 agentic coding 확대로도 이어짐

개요

  • Qwen3.6-27B는 270억 파라미터의 dense 멀티모달 모델로 공개됐으며, 멀티모달 thinking 모드와 non-thinking 모드를 함께 지원
  • agentic coding 성능에서 이전 세대 오픈소스 플래그십인 Qwen3.5-397B-A17B를 주요 코딩 벤치마크 전반에서 상회
  • MoE 라우팅 복잡성이 없는 dense 아키텍처 채택으로 배포가 단순하며, 실용적이고 널리 배포 가능한 규모에서 상위권 코딩 성능 제공
  • Qwen Studio에서 즉시 사용 가능하며, 커뮤니티용 open weights와 API 접근 경로도 함께 제공
  • 핵심 특성으로 플래그십급 agentic coding, 강한 텍스트 추론, 멀티모달 추론 역량 포함

성능

  • Qwen3.6-27B는 dense와 MoE 기준 모델들을 상대로 종합 평가가 제시됐으며, agentic coding 벤치마크에서 큰 폭의 향상 기록
  • 총 파라미터 수가 최대 15배 큰 모델들까지 능가했다고 명시
  • 평가 항목은 언어, 지식, STEM 및 추론, 비전-언어, 문서 이해, 비디오 이해, visual agent 등으로 구성
  • 언어

    • 270억 파라미터만으로 주요 코딩 벤치마크 전부에서 Qwen3.5-397B-A17B를 상회
      • SWE-bench Verified 77.2 대 76.2
      • SWE-bench Pro 53.5 대 50.9
      • Terminal-Bench 2.0 59.3 대 52.5
      • SkillsBench 48.2 대 30.0
    • 동급 규모의 다른 dense 모델들도 큰 차이로 앞섬
    • 추론 과제에서는 GPQA Diamond 87.8점 기록, 자사보다 몇 배 큰 모델들과 경쟁 가능한 수치
    • 세부 표에는 Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, Qwen3.6-27B 비교 포함
    • Coding Agent 항목 주요 수치
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • Knowledge 항목 주요 수치
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • STEM 및 추론 항목 주요 수치
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • 언어 평가 설정

    • SWE-Bench Series는 내부 agent scaffold와 bash, file-edit 도구 사용, temp 1.0, top_p 0.95, 200K context window 기준
      • 공개 SWE-bench Pro 세트의 일부 문제성 태스크를 수정한 refined benchmark에서 모든 기준 모델 평가
    • Terminal-Bench 2.0는 Harbor 또는 Terminus-2 harness 사용
      • 3시간 timeout, 32 CPU, 48 GB RAM
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
      • 5회 실행 평균
    • SkillsBench는 OpenCode로 78개 태스크 평가
      • API 의존 태스크 제외된 self-contained subset
      • 5회 실행 평균
    • NL2Repo의 다른 모델 평가는 Claude Code 사용
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench는 실제 사용자 분포 기반 Claw agent 벤치마크
      • temp 0.6, 256K ctx
    • QwenWebBench는 내부 프런트엔드 코드 생성 벤치마크
      • EN과 CN 이중언어 구성
      • Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D의 7개 카테고리
      • auto-render와 멀티모달 judge로 코드와 시각 정합성 평가
      • BT 또는 Elo rating system 사용
    • AIME 26은 AIME 2026 I과 II 전체 사용
      • 점수는 Qwen 3.5 노트와 다를 수 있다고 명시
  • 비전 언어

    • Qwen3.6-27B는 단일 통합 체크포인트에서 비전-언어 thinking과 non-thinking 모드를 함께 지원
    • 텍스트와 함께 이미지 및 비디오 처리 가능
    • 멀티모달 추론, 문서 이해, 시각 질의응답 작업 지원
    • 비교 표는 Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, Qwen3.6-27B 기준으로 제시
    • STEM 및 퍼즐

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • 일반 VQA

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • 문서 이해

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • 공간 지능

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • 비디오 이해

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • 비고

      • 표의 빈 칸(--) 은 점수가 아직 없거나 해당되지 않음을 의미

Qwen3.6-27B 활용

  • Alibaba Cloud Model Studio 지원은 곧 제공 예정이라고 명시
  • Hugging FaceModelScope에서 open weights 제공, self-hosting 가능
  • Alibaba Cloud Model Studio API를 통한 사용 경로와 Qwen Studio에서의 즉시 체험 경로 제공
  • OpenClaw, Claude Code, Qwen Code 같은 서드파티 코딩 도우미와의 통합 지원
  • 개발 워크플로 간소화와 context-aware coding experience 지원 언급
  • API 사용

    • 이번 릴리스는 preserve_thinking 기능 지원
    • 메시지의 모든 이전 턴에서 생성된 thinking 콘텐츠를 보존하는 기능이며, agentic task에 권장된다고 명시
  • Alibaba Cloud Model Studio

  • Coding & Agents

    • Qwen3.6-27B는 agentic coding 역량을 갖추고 있으며 OpenClaw, Claude Code, Qwen Code와 매끄럽게 통합 가능
    • OpenClaw

      • OpenClaw는 self-hosted 오픈소스 AI coding agent이며, 이전 명칭은 Moltbot 또는 Clawdbot
      • Model Studio와 연결해 터미널에서 전체 agentic coding 경험 제공
      • 시작 스크립트에 Node.js 22+, 설치 스크립트 실행, DASHSCOPE_API_KEY 설정, openclaw dashboard 또는 openclaw tui 실행 절차 포함
      • 최초 사용 시 ~/.openclaw/openclaw.json 수정 필요
        • 전체 파일 덮어쓰기 금지 명시
        • 기존 설정 보존을 위해 필요한 필드만 병합
      • 예시 설정에는 modelstudio provider와 qwen3.6-27b 모델 등록 포함
        • api는 openai-completions
        • reasoning 값은 true
        • 입력 유형은 text, image
        • contextWindow는 131072
        • maxTokens는 16384
        • 기본 primary 모델은 modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code는 터미널용 오픈소스 AI agent이며 Qwen Series에 깊게 최적화된 도구
      • 시작 스크립트에 Node.js 20+, @qwen-code/qwen-code@latest 설치, qwen 실행 절차 포함
      • 세션 안에서 /help, /auth 명령 사용 예시 제공
      • 최초 사용 시 로그인 프롬프트가 표시되며, /auth로 인증 방식 전환 가능
    • Claude Code

      • Qwen APIs는 Anthropic API protocol도 지원
      • Claude Code 같은 도구와 함께 사용할 수 있다고 명시
      • 설정 예시에는 다음 환경 변수 포함
      • 실행 명령은 claude

마무리

  • 잘 학습된 dense 모델이 개발자에게 중요한 과제에서 훨씬 더 큰 이전 세대를 능가할 수 있음을 Qwen3.6-27B가 입증함
  • 270억 파라미터 규모이면서 Qwen3.5-397B-A17B를 주요 agentic coding 벤치마크 전부에서 상회
  • 배포와 서비스가 단순한 구조이며, Qwen3.6 오픈소스 계열은 Qwen3.6-27B 추가로 더 넓은 범위의 모델 구성을 갖추게 됨
Read Entire Article