Qwen3.6-27B: 270억 dense 모델에서 플래그십급 코딩 성능

12 hours ago 3

270억 파라미터 dense 멀티모달 모델로 공개, 하나의 통합 체크포인트에서 thinking·non-thinking 모드와 이미지·비디오 처리를 함께 지원
agentic coding 성능이 주요 코딩 벤치마크 전반에서 이전 세대 오픈소스 플래그십 Qwen3.5-397B-A17B를 상회하며, 총 파라미터 수가 최대 15배 큰 모델들까지 능가함
SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2를 기록했고, GPQA Diamond 87.8, AIME26 94.1 등 텍스트 추론과 STEM 평가 수치도 함께 공개
dense 아키텍처 채택으로 MoE 라우팅 복잡성이 없고 배포가 단순하며, open weights, API, Qwen Studio 즉시 사용 경로와 OpenClaw·Qwen Code·Claude Code 통합 지원 제공
잘 학습된 dense 모델이 개발자 핵심 작업에서 훨씬 더 큰 이전 세대를 넘어설 수 있음을 보여주며, Qwen3.6 계열의 agentic coding 확대로도 이어짐

개요

Qwen3.6-27B는 270억 파라미터의 dense 멀티모달 모델로 공개됐으며, 멀티모달 thinking 모드와 non-thinking 모드를 함께 지원
agentic coding 성능에서 이전 세대 오픈소스 플래그십인 Qwen3.5-397B-A17B를 주요 코딩 벤치마크 전반에서 상회
MoE 라우팅 복잡성이 없는 dense 아키텍처 채택으로 배포가 단순하며, 실용적이고 널리 배포 가능한 규모에서 상위권 코딩 성능 제공
Qwen Studio에서 즉시 사용 가능하며, 커뮤니티용 open weights와 API 접근 경로도 함께 제공
핵심 특성으로 플래그십급 agentic coding, 강한 텍스트 추론, 멀티모달 추론 역량 포함

성능

Qwen3.6-27B는 dense와 MoE 기준 모델들을 상대로 종합 평가가 제시됐으며, agentic coding 벤치마크에서 큰 폭의 향상 기록
총 파라미터 수가 최대 15배 큰 모델들까지 능가했다고 명시
평가 항목은 언어, 지식, STEM 및 추론, 비전-언어, 문서 이해, 비디오 이해, visual agent 등으로 구성
언어
- 270억 파라미터만으로 주요 코딩 벤치마크 전부에서 Qwen3.5-397B-A17B를 상회
  - SWE-bench Verified 77.2 대 76.2
  - SWE-bench Pro 53.5 대 50.9
  - Terminal-Bench 2.0 59.3 대 52.5
  - SkillsBench 48.2 대 30.0
- 동급 규모의 다른 dense 모델들도 큰 차이로 앞섬
- 추론 과제에서는 GPQA Diamond 87.8점 기록, 자사보다 몇 배 큰 모델들과 경쟁 가능한 수치
- 세부 표에는 Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, Qwen3.6-27B 비교 포함
- Coding Agent 항목 주요 수치
  - SWE-bench Multilingual 71.3
  - QwenWebBench 1487
  - NL2Repo 36.2
  - Claw-Eval Avg 72.4
  - Claw-Eval Pass^3 60.6
  - QwenClawBench 53.4
- Knowledge 항목 주요 수치
  - MMLU-Pro 86.2
  - MMLU-Redux 93.5
  - SuperGPQA 66.0
  - C-Eval 91.4
- STEM 및 추론 항목 주요 수치
  - HLE 24.0
  - LiveCodeBench v6 83.9
  - HMMT Feb 25 93.8
  - HMMT Nov 25 90.7
  - HMMT Feb 26 84.3
  - IMOAnswerBench 80.8
  - AIME26 94.1
언어 평가 설정
- SWE-Bench Series는 내부 agent scaffold와 bash, file-edit 도구 사용, temp 1.0, top_p 0.95, 200K context window 기준
  - 공개 SWE-bench Pro 세트의 일부 문제성 태스크를 수정한 refined benchmark에서 모든 기준 모델 평가
- Terminal-Bench 2.0는 Harbor 또는 Terminus-2 harness 사용
  - 3시간 timeout, 32 CPU, 48 GB RAM
  - temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
  - 5회 실행 평균
- SkillsBench는 OpenCode로 78개 태스크 평가
  - API 의존 태스크 제외된 self-contained subset
  - 5회 실행 평균
- NL2Repo의 다른 모델 평가는 Claude Code 사용
  - temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench는 실제 사용자 분포 기반 Claw agent 벤치마크
  - temp 0.6, 256K ctx
- QwenWebBench는 내부 프런트엔드 코드 생성 벤치마크
  - EN과 CN 이중언어 구성
  - Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D의 7개 카테고리
  - auto-render와 멀티모달 judge로 코드와 시각 정합성 평가
  - BT 또는 Elo rating system 사용
- AIME 26은 AIME 2026 I과 II 전체 사용
  - 점수는 Qwen 3.5 노트와 다를 수 있다고 명시
비전 언어
- Qwen3.6-27B는 단일 통합 체크포인트에서 비전-언어 thinking과 non-thinking 모드를 함께 지원
- 텍스트와 함께 이미지 및 비디오 처리 가능
- 멀티모달 추론, 문서 이해, 시각 질의응답 작업 지원
- 비교 표는 Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, Qwen3.6-27B 기준으로 제시
- STEM 및 퍼즐
  - MMMU 82.9
  - MMMU-Pro 75.8
  - MathVista mini 87.4
  - DynaMath 85.6
  - VlmsAreBlind 97.0
- 일반 VQA
  - RealWorldQA 84.1
  - MMStar 81.4
  - MMBench EN-DEV-v1.1 92.3
  - SimpleVQA 56.1
- 문서 이해
  - CharXiv RQ 78.4
  - CC-OCR 81.2
  - OCRBench 89.4
- 공간 지능
  - ERQA 62.5
  - CountBench 97.8
  - RefCOCO avg 92.5
  - EmbSpatialBench 84.6
  - RefSpatialBench 70.0
- 비디오 이해
  - VideoMME(w sub.) 87.7
  - VideoMMMU 84.4
  - MLVU 86.6
  - MVBench 75.5
- Visual Agent
  - V* 94.7
  - AndroidWorld 70.3
- 비고
  - 표의 빈 칸(--) 은 점수가 아직 없거나 해당되지 않음을 의미

Qwen3.6-27B 활용

Alibaba Cloud Model Studio 지원은 곧 제공 예정이라고 명시
Hugging Face와 ModelScope에서 open weights 제공, self-hosting 가능
Alibaba Cloud Model Studio API를 통한 사용 경로와 Qwen Studio에서의 즉시 체험 경로 제공
OpenClaw, Claude Code, Qwen Code 같은 서드파티 코딩 도우미와의 통합 지원
개발 워크플로 간소화와 context-aware coding experience 지원 언급
API 사용
- 이번 릴리스는 preserve_thinking 기능 지원
- 메시지의 모든 이전 턴에서 생성된 thinking 콘텐츠를 보존하는 기능이며, agentic task에 권장된다고 명시
Alibaba Cloud Model Studio
- OpenAI 규격과 호환되는 chat completions 및 responses API 지원
- Anthropic 호환 API 인터페이스도 함께 지원
- 공식 문서 기준 환경 변수 예시 제공
  - DASHSCOPE_API_KEY
  - DASHSCOPE_BASE_URL
  - DASHSCOPE_MODEL
- Base URL 예시 지역도 함께 제시
  - Beijing https://dashscope.aliyuncs.com/compatible-mode/v1
  - Singapore https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  - US Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
- 예제 코드에서는 기본 모델 이름으로 qwen3.6-27b 사용
- extra_body에 enable_thinking: True 포함
  - preserve_thinking: True는 주석 형태로 표시
- 스트리밍 응답에서 reasoning_content와 answer content를 분리 수집하는 예시 포함
- 추가 정보는 API doc 링크 참조 안내
Coding & Agents
- Qwen3.6-27B는 agentic coding 역량을 갖추고 있으며 OpenClaw, Claude Code, Qwen Code와 매끄럽게 통합 가능
- OpenClaw
  - OpenClaw는 self-hosted 오픈소스 AI coding agent이며, 이전 명칭은 Moltbot 또는 Clawdbot
  - Model Studio와 연결해 터미널에서 전체 agentic coding 경험 제공
  - 시작 스크립트에 Node.js 22+, 설치 스크립트 실행, DASHSCOPE_API_KEY 설정, openclaw dashboard 또는 openclaw tui 실행 절차 포함
  - 최초 사용 시 ~/.openclaw/openclaw.json 수정 필요
    - 전체 파일 덮어쓰기 금지 명시
    - 기존 설정 보존을 위해 필요한 필드만 병합
  - 예시 설정에는 modelstudio provider와 qwen3.6-27b 모델 등록 포함
    - api는 openai-completions
    - reasoning 값은 true
    - 입력 유형은 text, image
    - contextWindow는 131072
    - maxTokens는 16384
    - 기본 primary 모델은 modelstudio/qwen3.6-27b
- Qwen Code
  - Qwen Code는 터미널용 오픈소스 AI agent이며 Qwen Series에 깊게 최적화된 도구
  - 시작 스크립트에 Node.js 20+, @qwen-code/qwen-code@latest 설치, qwen 실행 절차 포함
  - 세션 안에서 /help, /auth 명령 사용 예시 제공
  - 최초 사용 시 로그인 프롬프트가 표시되며, /auth로 인증 방식 전환 가능
- Claude Code
  - Qwen APIs는 Anthropic API protocol도 지원
  - Claude Code 같은 도구와 함께 사용할 수 있다고 명시
  - 설정 예시에는 다음 환경 변수 포함
    - ANTHROPIC_MODEL="qwen3.6-27b"
    - ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
    - ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    - ANTHROPIC_AUTH_TOKEN=<your_api_key>
  - 실행 명령은 claude