DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델

4 hours ago 3

1M 토큰 컨텍스트를 지원하는 Mixture-of-Experts(MoE) 기반 대규모 언어 모델로, Pro(1.6T 파라미터)와 Flash(284B 파라미터) 두 가지 버전으로 공개
Compressed Sparse Attention(CSA) 과 Heavily Compressed Attention(HCA)을 결합한 하이브리드 어텐션 아키텍처로, 100만 토큰 기준 DeepSeek-V3.2 대비 추론 FLOPs 27%, KV 캐시 10%만 사용
32T 이상의 토큰으로 사전학습 후, 도메인별 전문가를 독립 학습시킨 뒤 on-policy distillation으로 단일 모델에 통합하는 2단계 후학습 파이프라인 적용
DeepSeek-V4-Pro-Max는 LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 등 코딩 벤치마크에서 오픈소스 최고 성능 달성
Non-Think, Think High, Think Max 세 가지 추론 모드를 지원해 일상 작업부터 최고 난이도 추론까지 용도별 선택 가능

모델 개요 및 아키텍처

DeepSeek-V4 시리즈는 DeepSeek-V4-Pro(총 1.6T 파라미터, 49B 활성화)와 DeepSeek-V4-Flash(총 284B 파라미터, 13B 활성화) 두 모델로 구성
두 모델 모두 100만 토큰 컨텍스트 길이 지원
주요 아키텍처 및 최적화 업그레이드 세 가지:
- Hybrid Attention Architecture: CSA와 HCA를 결합해 긴 컨텍스트 효율을 대폭 개선, 100만 토큰 기준 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs 27%, KV 캐시 10% 로 감소
- Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결을 강화해 레이어 간 신호 전파 안정성과 모델 표현력을 동시에 확보
- Muon Optimizer: 더 빠른 수렴과 높은 학습 안정성 제공

32T 이상의 다양하고 고품질 토큰으로 사전학습 수행
후학습은 2단계 패러다임 적용:
- 1단계: SFT와 RL(GRPO 활용)을 통해 도메인별 전문가를 독립적으로 학습
- 2단계: on-policy distillation으로 다양한 도메인의 전문성을 단일 모델에 통합

DeepSeek-V4-Pro와 DeepSeek-V4-Flash 모두 세 가지 추론 모드 지원:
- Non-Think: 빠르고 직관적인 응답, 일상 업무나 저위험 의사결정에 적합
- Think High: 의식적 논리 분석, 복잡한 문제 해결이나 계획 수립에 적합
- Think Max: 추론 능력의 한계까지 확장, 모델 추론 경계 탐색용

코딩 벤치마크에서 두각:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
지식 및 추론 영역:
- SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4로 대부분의 모델 상회하나 Gemini-3.1-Pro High(75.6, 85.9)에는 미달
- GPQA Diamond 90.1, MMLU-Pro 87.5
에이전트 태스크:
- SWE Verified 80.6, MCPAtlas Public 73.6 등 상위권
- Terminal Bench 2.0(67.9)과 HLE w/ tools(48.2)에서는 일부 클로즈드소스 모델에 미달
V4-Flash-Max는 더 큰 thinking budget을 부여하면 Pro 버전에 근접한 추론 성능 달성, 다만 순수 지식 태스크와 복잡한 에이전트 워크플로에서는 파라미터 규모 차이로 약간 뒤처짐

모든 벤치마크에서 V4-Pro Max가 최고 성능 기록
Non-Think → Think High → Think Max로 갈수록 성능이 일관되게 상승하는 패턴:
- 예: GPQA Diamond에서 V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- 예: LiveCodeBench에서 V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max는 여러 벤치마크에서 V4-Pro High와 유사하거나 상회하는 성능

네 가지 모델 제공: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
Base 모델은 FP8 Mixed 정밀도, Instruct 모델은 FP4 + FP8 Mixed 정밀도 사용
- MoE 전문가 파라미터는 FP4, 나머지 대부분은 FP8
HuggingFace와 ModelScope에서 다운로드 가능

Jinja 포맷 채팅 템플릿 미포함, 대신 encoding 폴더에 OpenAI 호환 포맷의 메시지 인코딩/파싱용 Python 스크립트와 테스트 케이스 제공
로컬 배포 시 권장 샘플링 파라미터: temperature 1.0, top_p 1.0
Think Max 모드에서는 최소 384K 토큰 이상의 컨텍스트 윈도우 권장