Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델

2 hours ago 2
  • Gemma 4 12B는 노트북에서 에이전트형 멀티모달 지능을 실행하도록 설계된 중간 크기 모델이며, edge 친화적인 E4B와 더 고급인 26B MoE 사이의 간극을 메움
  • 인코더 없는 통합 아키텍처로 이미지와 오디오 입력을 별도 멀티모달 인코더 없이 LLM 백본에 직접 흘려보내 지연 시간과 메모리 사용을 줄이는 방향을 택함
  • 표준 벤치마크 성능이 더 큰 26B MoE 모델에 근접하면서도 전체 메모리 사용량은 절반 미만이며, 16GB RAM 또는 VRAM/통합 메모리 환경의 소비자 노트북에서 로컬 실행 가능함
  • Gemma 4 12B는 Gemma 계열 최초의 중간 크기 모델로 네이티브 오디오 입력을 지원하고, Multi-Token Prediction drafters로 지연 시간 감소를 목표로 함
  • Gemma 4 모델은 1억 5천만 다운로드를 넘었고, Gemma 4 12B는 Apache 2.0 라이선스와 주요 개발 도구·배포 경로 지원으로 로컬 멀티모달 에이전트 개발 범위를 넓힘

핵심 특징

  • Gemma 4 12B는 노트북에 고성능 멀티모달 지능을 직접 가져오도록 설계됐으며, 모바일 우선 효율성과 고급 추론을 결합함
  • edge 친화적인 E4B와 더 고급인 26B Mixture of Experts(MoE) 사이에 위치하며, 줄어든 메모리 풋프린트 안에 강력한 기능을 담음
  • 주요 특징은 다음과 같음
    • 멀티모달 인코더 없이 비전과 오디오 입력을 LLM 백본으로 직접 전달하는 통합 아키텍처
    • 26B 모델에 근접한 벤치마크 성능과 다단계 추론·에이전트 워크플로우 지원
    • 16GB VRAM 또는 통합 메모리만으로 로컬 실행 가능한 노트북 준비성
    • Apache 2.0 라이선스와 개발자 생태계 지원
    • Multi-Token Prediction(MTP) drafters를 통한 지연 시간 감소

인코더 없는 멀티모달 처리 방식

  • 기존 멀티모달 모델은 보통 이미지와 오디오를 별도 인코더로 변환한 뒤 해당 표현을 언어 모델에 전달함
  • Gemma 4 12B는 분리된 인코더가 지연 시간과 메모리 사용을 늘린다는 점을 피하기 위해 오디오와 비전 입력을 직접 통합하도록 학습됨
  • 비전 처리에서는 Gemma 4의 비전 인코더를 단일 행렬 곱셈, 위치 임베딩, 정규화로 구성된 경량 임베딩 모듈로 대체해 LLM 백본이 시각 처리를 맡게 함
  • 오디오 처리에서는 오디오 인코더를 완전히 제거하고 원시 오디오 신호를 텍스트 토큰과 같은 차원 공간으로 투영함
  • 더 자세한 개발자용 구조 설명은 Gemma 4 12B Developer Guide에서 확인할 수 있음

사용 시작 경로

Read Entire Article