DiffusionGemma: 4배 빠른 텍스트 생성

2 hours ago 1

DiffusionGemma는 텍스트 확산 방식으로 전체 텍스트 블록을 동시에 생성하는 Apache 2.0 라이선스의 26B MoE 실험용 공개 모델임
일반적인 자기회귀 LLM의 순차적 토큰 생성 대신 256토큰 병렬 생성을 사용해 전용 GPU에서 최대 4배 빠른 텍스트 생성을 제공함
추론 시 전체 26B 중 3.8B 파라미터만 활성화하며, 양자화하면 18GB VRAM 한도 안에서 고급 소비자용 전용 GPU에 맞게 동작함
양방향 어텐션과 반복적 자체 수정으로 인라인 편집, 코드 채우기, 아미노산 서열, 수학 그래프처럼 비선형 구조가 있는 작업에 이점이 있음
속도와 병렬 레이아웃 생성을 우선한 실험 모델이므로 전체 출력 품질은 표준 Gemma 4보다 낮으며, 최고 품질이 필요한 애플리케이션에는 표준 Gemma 4 배포가 권장됨

개발자를 위한 새로운 가치

DiffusionGemma는 텍스트 확산을 탐색하는 실험용 공개 모델이며, 일반적인 자기회귀 LLM의 토큰별 순차 처리를 넘어 전체 텍스트 블록을 동시에 생성함
이 모델은 Apache 2.0 라이선스로 제공되는 26B Mixture of Experts(MoE) 모델이며, GPU에서 최대 4배 빠른 텍스트 생성을 제공함
Gemma 4 계열의 파라미터당 지능과 Gemini Diffusion research를 기반으로 하며, 생성 속도 극대화를 위한 새로운 확산 헤드를 통합함
자기회귀 Gemma 4 모델은 고품질 프로덕션 출력의 표준으로 유지되며, DiffusionGemma는 속도가 중요한 대화형 로컬 워크플로를 탐색하는 연구자와 개발자를 위해 설계됨
핵심 트레이드오프
- 빠른 추론은 디코딩 병목을 메모리 대역폭에서 연산으로 옮겨 전용 GPU에서 최대 4배 빠른 토큰 출력을 제공함
- 단일 NVIDIA H100에서 초당 1000개 이상 토큰, NVIDIA GeForce RTX 5090에서 초당 700개 이상 토큰을 생성함
- 하드웨어 접근성은 전체 26B MoE 중 추론 시 3.8B 파라미터만 활성화하는 구조에서 나옴
- 양자화하면 고급 소비자용 전용 GPU의 18GB VRAM 한도 안에 맞게 동작함
- 양방향 어텐션은 각 순전파마다 256토큰을 병렬 생성해 모든 토큰이 서로를 참조할 수 있게 함
- 인라인 편집, 코드 채우기, 아미노산 서열, 수학 그래프 같은 비선형 영역에서 이점이 있음
- 자체 수정은 모델이 전체 텍스트 블록을 한 번에 평가하면서 실시간으로 실수를 고치도록 반복적으로 출력을 다듬는 방식임
- 실험적 상태와 프로덕션 권고는 명확하며, 속도와 병렬 레이아웃 생성을 우선하기 때문에 전체 출력 품질은 표준 Gemma 4보다 낮음
미세조정 예시
- 특정 작업 성능은 미세조정으로 개선할 수 있음
- Unsloth는 DiffusionGemma가 스도쿠를 풀도록 미세조정했으며, 스도쿠는 각 토큰이 미래 토큰에 의존하기 때문에 자기회귀 모델이 어려워하는 작업임
- DiffusionGemma의 양방향 어텐션은 스도쿠 같은 작업을 훨씬 쉽게 만듦

텍스트에 확산을 쓰는 이유

AI 연구 커뮤니티는 수년간 확산 기반 텍스트 생성을 탐색해 왔지만, 이를 대형 모델에 적용하는 일은 도전 과제로 남아 있었음
DiffusionGemma는 모델이 하드웨어를 사용하는 방식을 바꿔 이 문제를 다룸
기존 모델과의 트레이드오프
- 대부분의 언어 모델은 타자기처럼 왼쪽에서 오른쪽으로 한 번에 하나의 토큰을 생성함
- 클라우드에서는 서버가 수천 개 사용자 요청을 함께 배치 처리해 하드웨어 부하를 공유할 수 있으므로 이 방식이 효율적임
- 단일 사용자가 로컬에서 실행할 때는 단어 단위 생성이 전용 GPU나 TPU를 충분히 활용하지 못하게 하며, 하드웨어가 다음 “키 입력”을 기다리는 시간이 많아짐
- DiffusionGemma는 256토큰 문단 전체를 동시에 초안 작성해 컴퓨터 프로세서에 더 큰 작업 덩어리를 한 번에 제공함
- 이 구조는 모델 추론을 순차적 타자기에서 전체 텍스트 블록을 동시에 찍는 대형 인쇄기처럼 바꾸는 방식임
로컬·저동시성 추론에 맞춘 속도 향상
- DiffusionGemma의 속도 향상은 로컬 추론과 낮은 동시성 추론을 위해 설계됨
- 높은 QPS 클라우드 서빙에서는 자기회귀 모델도 연산을 효율적으로 포화하도록 배포할 수 있음
- 높은 QPS 환경에서는 DiffusionGemma의 병렬 디코딩 이점이 줄어들며, 서빙 비용이 더 높아질 수 있음
- 처리량 이점은 단일 가속기에서 낮은 배치 크기부터 중간 배치 크기까지 가장 강함

텍스트 확산의 작동 방식

텍스트 확산은 시각적 노이즈에서 시작해 선명한 그림으로 반복 개선하는 AI 이미지 생성 방식과 유사한 절차를 텍스트에 적용함
첫 단계인 캔버스에서는 모델이 무작위 플레이스홀더 토큰으로 구성된 캔버스에서 시작함
반복 개선 단계에서는 모델이 여러 차례 패스를 수행하고, 올바른 토큰을 고정한 뒤 이를 맥락 단서로 사용해 나머지를 다듬음
최종 다듬기 단계에서는 텍스트가 고품질 출력으로 수렴함
모델이 생성 중 문단 전체를 처리할 수 있기 때문에 복잡한 Markdown 서식을 정확히 닫거나 코드를 거의 실시간으로 생성하고 렌더링하는 동작 패턴이 가능해짐

시작 방법

실험용 모델 가중치는 허용적인 Apache 2.0 라이선스로 제공되며 Hugging Face에서 접근할 수 있음
DiffusionGemma developer guide에서 통합 방법을 확인할 수 있으며, A Visual Guide to DiffusionGemma에서 내부 메커니즘을 더 깊게 볼 수 있음
모델 서빙은 MLX, vLLM, Hugging Face Transformers를 사용해 수행할 수 있음
vLLM 통합은 Red Hat의 지원을 받음
빠른 실험을 위해 조합성을 위해 설계된 모듈형 JAX 도구상자인 Hackable Diffusion 기반 미세조정 튜토리얼이 제공됨
미세조정은 Unsloth와 NVIDIA NeMo로도 탐색할 수 있음
llama.cpp 공식 지원은 곧 제공될 예정임

최적화와 실행 환경

NVIDIA와의 협업으로 하드웨어 스택 전반에서 최적화가 이뤄졌으며, 소비자 환경과 엔터프라이즈 시스템 모두에서 호환성과 성능을 제공함
소비자 환경은 GeForce RTX 5090과 4090 GPU용 양자화를 지원함
엔터프라이즈 환경은 고급 NVFP4 커널을 사용하는 Hopper와 Blackwell에서 고성능을 제공함
로컬 데스크사이드 배포용 NVIDIA DGX Spark와 DGX Station, AI 전문가용 RTX PRO도 대상에 들어감
NVFP4 4비트 부동소수점 네이티브 지원은 연산 처리량을 가속해 모델이 더 빠른 속도와 거의 손실 없는 정확도로 실행되게 함
실행 방식은 데스크톱 전용 GPU, Gemini Enterprise Agent Platform Model Garden, NVIDIA NIM 중에서 선택할 수 있음

Read Entire Article