DiffusionGemma: 4배 빠른 텍스트 생성
2 hours ago
1
- DiffusionGemma는 텍스트 확산 방식으로 전체 텍스트 블록을 동시에 생성하는 Apache 2.0 라이선스의 26B MoE 실험용 공개 모델임
- 일반적인 자기회귀 LLM의 순차적 토큰 생성 대신 256토큰 병렬 생성을 사용해 전용 GPU에서 최대 4배 빠른 텍스트 생성을 제공함
- 추론 시 전체 26B 중 3.8B 파라미터만 활성화하며, 양자화하면 18GB VRAM 한도 안에서 고급 소비자용 전용 GPU에 맞게 동작함
- 양방향 어텐션과 반복적 자체 수정으로 인라인 편집, 코드 채우기, 아미노산 서열, 수학 그래프처럼 비선형 구조가 있는 작업에 이점이 있음
- 속도와 병렬 레이아웃 생성을 우선한 실험 모델이므로 전체 출력 품질은 표준 Gemma 4보다 낮으며, 최고 품질이 필요한 애플리케이션에는 표준 Gemma 4 배포가 권장됨
개발자를 위한 새로운 가치
- DiffusionGemma는 텍스트 확산을 탐색하는 실험용 공개 모델이며, 일반적인 자기회귀 LLM의 토큰별 순차 처리를 넘어 전체 텍스트 블록을 동시에 생성함
- 이 모델은 Apache 2.0 라이선스로 제공되는 26B Mixture of Experts(MoE) 모델이며, GPU에서 최대 4배 빠른 텍스트 생성을 제공함
- Gemma 4 계열의 파라미터당 지능과 Gemini Diffusion research를 기반으로 하며, 생성 속도 극대화를 위한 새로운 확산 헤드를 통합함
- 자기회귀 Gemma 4 모델은 고품질 프로덕션 출력의 표준으로 유지되며, DiffusionGemma는 속도가 중요한 대화형 로컬 워크플로를 탐색하는 연구자와 개발자를 위해 설계됨
-
핵심 트레이드오프
- 빠른 추론은 디코딩 병목을 메모리 대역폭에서 연산으로 옮겨 전용 GPU에서 최대 4배 빠른 토큰 출력을 제공함
- 단일 NVIDIA H100에서 초당 1000개 이상 토큰, NVIDIA GeForce RTX 5090에서 초당 700개 이상 토큰을 생성함
- 하드웨어 접근성은 전체 26B MoE 중 추론 시 3.8B 파라미터만 활성화하는 구조에서 나옴
- 양자화하면 고급 소비자용 전용 GPU의 18GB VRAM 한도 안에 맞게 동작함
- 양방향 어텐션은 각 순전파마다 256토큰을 병렬 생성해 모든 토큰이 서로를 참조할 수 있게 함
- 인라인 편집, 코드 채우기, 아미노산 서열, 수학 그래프 같은 비선형 영역에서 이점이 있음
- 자체 수정은 모델이 전체 텍스트 블록을 한 번에 평가하면서 실시간으로 실수를 고치도록 반복적으로 출력을 다듬는 방식임
- 실험적 상태와 프로덕션 권고는 명확하며, 속도와 병렬 레이아웃 생성을 우선하기 때문에 전체 출력 품질은 표준 Gemma 4보다 낮음
-
미세조정 예시
- 특정 작업 성능은 미세조정으로 개선할 수 있음
- Unsloth는 DiffusionGemma가 스도쿠를 풀도록 미세조정했으며, 스도쿠는 각 토큰이 미래 토큰에 의존하기 때문에 자기회귀 모델이 어려워하는 작업임
- DiffusionGemma의 양방향 어텐션은 스도쿠 같은 작업을 훨씬 쉽게 만듦
텍스트에 확산을 쓰는 이유
- AI 연구 커뮤니티는 수년간 확산 기반 텍스트 생성을 탐색해 왔지만, 이를 대형 모델에 적용하는 일은 도전 과제로 남아 있었음
- DiffusionGemma는 모델이 하드웨어를 사용하는 방식을 바꿔 이 문제를 다룸
-
기존 모델과의 트레이드오프
- 대부분의 언어 모델은 타자기처럼 왼쪽에서 오른쪽으로 한 번에 하나의 토큰을 생성함
- 클라우드에서는 서버가 수천 개 사용자 요청을 함께 배치 처리해 하드웨어 부하를 공유할 수 있으므로 이 방식이 효율적임
- 단일 사용자가 로컬에서 실행할 때는 단어 단위 생성이 전용 GPU나 TPU를 충분히 활용하지 못하게 하며, 하드웨어가 다음 “키 입력”을 기다리는 시간이 많아짐
- DiffusionGemma는 256토큰 문단 전체를 동시에 초안 작성해 컴퓨터 프로세서에 더 큰 작업 덩어리를 한 번에 제공함
- 이 구조는 모델 추론을 순차적 타자기에서 전체 텍스트 블록을 동시에 찍는 대형 인쇄기처럼 바꾸는 방식임
-
로컬·저동시성 추론에 맞춘 속도 향상
- DiffusionGemma의 속도 향상은 로컬 추론과 낮은 동시성 추론을 위해 설계됨
- 높은 QPS 클라우드 서빙에서는 자기회귀 모델도 연산을 효율적으로 포화하도록 배포할 수 있음
- 높은 QPS 환경에서는 DiffusionGemma의 병렬 디코딩 이점이 줄어들며, 서빙 비용이 더 높아질 수 있음
- 처리량 이점은 단일 가속기에서 낮은 배치 크기부터 중간 배치 크기까지 가장 강함
텍스트 확산의 작동 방식
- 텍스트 확산은 시각적 노이즈에서 시작해 선명한 그림으로 반복 개선하는 AI 이미지 생성 방식과 유사한 절차를 텍스트에 적용함
- 첫 단계인 캔버스에서는 모델이 무작위 플레이스홀더 토큰으로 구성된 캔버스에서 시작함
- 반복 개선 단계에서는 모델이 여러 차례 패스를 수행하고, 올바른 토큰을 고정한 뒤 이를 맥락 단서로 사용해 나머지를 다듬음
- 최종 다듬기 단계에서는 텍스트가 고품질 출력으로 수렴함
- 모델이 생성 중 문단 전체를 처리할 수 있기 때문에 복잡한 Markdown 서식을 정확히 닫거나 코드를 거의 실시간으로 생성하고 렌더링하는 동작 패턴이 가능해짐
시작 방법
최적화와 실행 환경
- NVIDIA와의 협업으로 하드웨어 스택 전반에서 최적화가 이뤄졌으며, 소비자 환경과 엔터프라이즈 시스템 모두에서 호환성과 성능을 제공함
- 소비자 환경은 GeForce RTX 5090과 4090 GPU용 양자화를 지원함
- 엔터프라이즈 환경은 고급 NVFP4 커널을 사용하는 Hopper와 Blackwell에서 고성능을 제공함
- 로컬 데스크사이드 배포용 NVIDIA DGX Spark와 DGX Station, AI 전문가용 RTX PRO도 대상에 들어감
- NVFP4 4비트 부동소수점 네이티브 지원은 연산 처리량을 가속해 모델이 더 빠른 속도와 거의 손실 없는 정확도로 실행되게 함
- 실행 방식은 데스크톱 전용 GPU, Gemini Enterprise Agent Platform Model Garden, NVIDIA NIM 중에서 선택할 수 있음
-
Homepage
-
Tech blog
- DiffusionGemma: 4배 빠른 텍스트 생성