DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델

4 hours ago 3
  • 1M 토큰 컨텍스트를 지원하는 Mixture-of-Experts(MoE) 기반 대규모 언어 모델로, Pro(1.6T 파라미터)와 Flash(284B 파라미터) 두 가지 버전으로 공개
  • Compressed Sparse Attention(CSA) 과 Heavily Compressed Attention(HCA)을 결합한 하이브리드 어텐션 아키텍처로, 100만 토큰 기준 DeepSeek-V3.2 대비 추론 FLOPs 27%, KV 캐시 10%만 사용
  • 32T 이상의 토큰으로 사전학습 후, 도메인별 전문가를 독립 학습시킨 뒤 on-policy distillation으로 단일 모델에 통합하는 2단계 후학습 파이프라인 적용
  • DeepSeek-V4-Pro-Max는 LiveCodeBench 93.5, SWE Verified 80.6, Codeforces 3206 등 코딩 벤치마크에서 오픈소스 최고 성능 달성
  • Non-Think, Think High, Think Max 세 가지 추론 모드를 지원해 일상 작업부터 최고 난이도 추론까지 용도별 선택 가능

모델 개요 및 아키텍처

  • DeepSeek-V4 시리즈는 DeepSeek-V4-Pro(총 1.6T 파라미터, 49B 활성화)와 DeepSeek-V4-Flash(총 284B 파라미터, 13B 활성화) 두 모델로 구성
  • 두 모델 모두 100만 토큰 컨텍스트 길이 지원
  • 주요 아키텍처 및 최적화 업그레이드 세 가지:
    • Hybrid Attention Architecture: CSA와 HCA를 결합해 긴 컨텍스트 효율을 대폭 개선, 100만 토큰 기준 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs 27%, KV 캐시 10% 로 감소
    • Manifold-Constrained Hyper-Connections(mHC): 기존 잔차 연결을 강화해 레이어 간 신호 전파 안정성과 모델 표현력을 동시에 확보
    • Muon Optimizer: 더 빠른 수렴과 높은 학습 안정성 제공

학습 및 후학습 파이프라인

  • 32T 이상의 다양하고 고품질 토큰으로 사전학습 수행
  • 후학습은 2단계 패러다임 적용:
    • 1단계: SFT와 RL(GRPO 활용)을 통해 도메인별 전문가를 독립적으로 학습
    • 2단계: on-policy distillation으로 다양한 도메인의 전문성을 단일 모델에 통합

추론 모드

  • DeepSeek-V4-Pro와 DeepSeek-V4-Flash 모두 세 가지 추론 모드 지원:
    • Non-Think: 빠르고 직관적인 응답, 일상 업무나 저위험 의사결정에 적합
    • Think High: 의식적 논리 분석, 복잡한 문제 해결이나 계획 수립에 적합
    • Think Max: 추론 능력의 한계까지 확장, 모델 추론 경계 탐색용

벤치마크 성능 — Base 모델

  • DeepSeek-V4-Pro-Base는 대부분의 벤치마크에서 V3.2-Base와 V4-Flash-Base를 상회:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base는 13B 활성화 파라미터만으로 V3.2-Base(37B 활성화)에 근접하거나 일부 벤치마크에서 상회하는 효율성 입증

벤치마크 성능 — Instruct 모델 (V4-Pro-Max vs 프론티어 모델)

  • 코딩 벤치마크에서 두각:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • 지식 및 추론 영역:
    • SimpleQA-Verified 57.9, Chinese-SimpleQA 84.4로 대부분의 모델 상회하나 Gemini-3.1-Pro High(75.6, 85.9)에는 미달
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • 에이전트 태스크:
    • SWE Verified 80.6, MCPAtlas Public 73.6 등 상위권
    • Terminal Bench 2.0(67.9)과 HLE w/ tools(48.2)에서는 일부 클로즈드소스 모델에 미달
  • V4-Flash-Max는 더 큰 thinking budget을 부여하면 Pro 버전에 근접한 추론 성능 달성, 다만 순수 지식 태스크와 복잡한 에이전트 워크플로에서는 파라미터 규모 차이로 약간 뒤처짐

모드별 성능 비교

  • 모든 벤치마크에서 V4-Pro Max가 최고 성능 기록
  • Non-Think → Think High → Think Max로 갈수록 성능이 일관되게 상승하는 패턴:
    • 예: GPQA Diamond에서 V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • 예: LiveCodeBench에서 V4-Flash Non-Think 55.2 → Max 91.6
  • V4-Flash Max는 여러 벤치마크에서 V4-Pro High와 유사하거나 상회하는 성능

모델 다운로드 및 정밀도

  • 네 가지 모델 제공: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
  • Base 모델은 FP8 Mixed 정밀도, Instruct 모델은 FP4 + FP8 Mixed 정밀도 사용
    • MoE 전문가 파라미터는 FP4, 나머지 대부분은 FP8
  • HuggingFace와 ModelScope에서 다운로드 가능

채팅 템플릿 및 로컬 실행

  • Jinja 포맷 채팅 템플릿 미포함, 대신 encoding 폴더에 OpenAI 호환 포맷의 메시지 인코딩/파싱용 Python 스크립트와 테스트 케이스 제공
  • 로컬 배포 시 권장 샘플링 파라미터: temperature 1.0, top_p 1.0
  • Think Max 모드에서는 최소 384K 토큰 이상의 컨텍스트 윈도우 권장

라이선스

  • 모델 가중치와 리포지토리 모두 MIT License 적용
Read Entire Article