Qwen 3.6 27B는 로컬 개발의 최적 지점

3 weeks ago 23

Qwen 3.6 27B는 로컬 모델에 회의적이던 사용자에게도 범용 작업에서 의미 있는 선택지로 보이며, 35B A3B보다 느리지만 더 강력한 dense 모델로 추천됨
창작·코딩 테스트에서는 제약 조건 준수가 강점으로 드러났고, OpenCode에서 pnpm 기반 육각형 지뢰찾기를 단일 프롬프트로 Node 패키지 형태로 생성함
llama.cpp와 Hugging Face의 8-bit GGUF 양자화를 조합하면 로컬 실행이 가능하며, MTP, GPU 레이어 적재, flash attention, 64k 컨텍스트 설정으로 에이전트 코딩 환경까지 구성할 수 있음
Macbook Max M5 128GB 테스트에서 Qwen3.6-27B 8-bit는 llama.cpp + MTP로 32 tok/s, 약 42GB RAM을 사용했고, 더 빠른 35B A3B보다 코드 품질이 나아 27B가 선호됨
Artificial Analysis 기준 Qwen3.6-27B는 37점으로 GPT-5 / Claude Sonnet 4.5와 같은 mid 2025 수준에 놓이며, 민감 데이터·오프라인 작업·회수 불가능한 자체 모델 운영에 실용적임

Qwen 3.6 27B를 추천하는 이유

Qwen 3.6은 두 가지 변형으로 제공됨
- Qwen 3.6 35B A3B: mixture-of-experts 모델
- Qwen 3.6 27B: dense 모델이며 더 느리지만 더 강력한 선택지
Qwen 3.6 27B는 “체급 이상으로 성능을 낸다”는 반응을 많이 얻었고, 관련 예시로 Will it Mythos?가 있음
로컬 실행 중 컴퓨터가 뜨거워질 수 있지만, 감수할 만한 성능을 제공함

간단한 테스트와 실제 작업 결과

간단한 스모크 테스트로 Simon Willison의 “penguins on a bicycle” 대신 제약 글쓰기를 사용함
Zouk 춤과 양자물리학을 주제로 8행 시를 요청했을 때, 양자 용어와 운율을 다루는 사고 과정이 자연스럽게 이어짐
- 관련 대화는 transcript에 있음
OpenCode에서 pnpm을 사용해 육각형 지뢰찾기를 만들도록 요청하자, 단일 프롬프트만으로 제대로 된 Node 패키지를 생성함
Qwen 3.6 35B A3B는 더 빨랐지만, 패키지를 만들라는 지시를 따르지 않고 단일 index.html로 구현함
일반 업무성 작업에서도 짧은 프롬프트로 작동하는 결과물을 만들었고, 반응성과 기본값도 괜찮은 편임
- frontier 모델 기준으로는 특별하지 않지만, 로컬 모델로는 이미 실용적인 수준임

llama.cpp로 로컬 실행하기

로컬 모델 실행은 몇 줄의 CLI로 가능하며, 추천 도구는 llama.cpp임
Hugging Face에서 용량을 줄인 양자화 모델을 받아 실행함
- 인기 양자화 모델 제공처로 unsloth와 bartowski가 있음
- 기본 모델은 보통 BF16 정밀도임
- 8-bit 양자화는 품질 손실을 거의 만들지 않으면서 공간을 절반으로 줄임
- 더 낮은 비트 양자화는 모델을 더 작고 잠재적으로 빠르게 만들지만 품질 비용이 따름
- 27B 비교는 Reddit benchmark, 35B A3B 비교는 Hugging Face discussion에 있음
서버 실행 예시
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Hugging Face에서 모델을 가져오며, 이후 실행에서는 재사용함
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: 이미 모델 파일이 있으면 대신 사용할 수 있음
- draft-mtp: 빠른 모델로 다음 토큰을 예측하는 multi-token prediction을 사용해 속도를 높임
- -ngl 999: 모든 레이어를 GPU에 올림
- -fa on: flash attention을 켬
- -c 65536: 컨텍스트 크기를 64k 토큰으로 설정함
- Qwen 3.6 27B의 네이티브 컨텍스트는 256k임
- --port 8080: 다른 설정에서 사용할 포트를 고정함
- http://127.0.0.1:8080을 열면 직접 채팅할 수 있음
OpenCode 설정
- 같은 서버를 vibe coding에도 사용할 수 있음
- OpenCode에서는 ~/.config/opencode/opencode.jsonc에 다음 설정을 추가함
{ "$schema": "https://opencode.ai/config.json";, "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1";, "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" }
터미널 채팅용 실행
- 터미널에서 채팅만 하려면 llama-server 대신 llama-cli를 사용할 수 있음
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536

Apple Silicon 성능 측정

테스트 결과는 benching-local-llms-on-apple-silicon에 정리되어 있으며, Macbook Max M5 128GB에서 실행됨
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s는 나쁘지 않은 속도이며, 일반적인 frontier 모델 API 범위 안에 들어감
mlx-lm은 Apple Silicon을 겨냥했지만, 이 테스트에서는 llama.cpp가 더 빨랐음
실행 중 GPU 사용률은 95%로, 사용 가능한 리소스를 효율적으로 활용한 것으로 보임
Qwen 3.6의 두 변형은 모두 Apple Silicon 공유 RAM 48GB 안에서 실행됨
소비자용 Nvidia RTX 카드에서는 더 공격적인 양자화가 필요하지만 추론은 더 빠르게 실행됨
- Hacker News의 gfosco는 5090에서 Q6_K 양자화와 Q4_0 KV로 123k 컨텍스트에서 일관되게 50 tok/s를 얻었고, LM Studio로 약 28/32GB VRAM을 사용했다고 밝힘
35B A3B는 3배 빠르지만, 생성되는 코드 양이 3분의 1이어도 품질이 더 높은 27B를 선택할 만함

기존 최첨단 모델과의 비교

Artificial Analysis 점수 비교에서 Qwen3.6-27B는 37점임
비교 표의 주요 항목은 다음과 같음
- Gemma 4 31B: 29점, late 2024 수준, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32점, early 2025 수준, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37점, mid 2025 수준, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40점, late 2025 수준, GPT-5.2 / Claude Opus 4.5
추가 벤치마크는 notes에 있으며, 전반적인 흐름은 비슷함
Gemma 4 31B는 로컬 코딩의 기본값처럼 쓰는 사람이 많아 비교에 포함됨
벤치마크와 온라인 반응 모두 Qwen 3.6 27B를 Gemma 4 31B보다 크게 선호함
단, 양자화 조건에는 주의가 필요함
- 8-bit 양자화는 결과에 큰 영향을 주지 않을 가능성이 큼
- DwarfStar4는 DeepSeek V4 Flash에 2–4bit의 훨씬 공격적인 양자화를 사용하므로, 전체 모델보다 확실히 나쁨
- 이 조건에서는 Qwen 3.6 27B가 DwarfStar4와 같거나 약간 더 나은 인상을 줌
- 더 긴 컨텍스트 프로젝트에서는 DS4가 우위를 가질 수도 있음

로컬 모델 운영의 다음 단계

직접 모델을 실행하는 일이 점점 현실적인 선택지가 되고 있음
독점 frontier 모델의 상태가 이 흐름을 더 밀어붙일 수 있음
- Claude Fable 5는 내려감
- 다른 frontier 모델은 대규모 보조금 위에서 운영되며, 월 100달러 지불로 수천 달러어치 토큰을 쓰는 구조임
로컬 설정 모델은 필요에 맞게 파인튜닝할 수 있고, 외부에서 회수할 수 없음
기업은 독점 데이터와 민감 데이터를 위해 로컬 모델을 사용할 수 있음
개인은 오프라인 프로젝트나, 미국·중국에 깊은 비밀 또는 의료 데이터를 공유하고 싶지 않은 상황에서 로컬 모델을 활용할 수 있음
frontier-level open-weight GLM 5.2 공개는 로컬 모델 흐름을 더 앞당김
- Qwen 3.6은 징검다리였고, GLM 5.2도 로컬 실행이 가능함
- GLM 5.2는 Macbook이나 단일 RTX 5090에서는 실행되지 않지만, 회사 예산으로는 감당 가능한 수준임
현재 최첨단보다 똑똑하면서 로컬 기기, 어쩌면 스마트폰에서도 실행 가능한 모델이 나올 수 있음
현재 모델은 원시 지능과 사실 지식을 같은 가중치에 결합하지만, 미래 모델은 지식을 도구 호출로 넘기며 둘을 분리할 가능성이 큼