4개의 Raspberry Pi 5에서 Qwen3 30B A3B로 초당 13개 토큰 달성

8 hours ago 1

  • 소형 라즈베리파이 보드 4대를 분산 추론 노드로 묶어 Qwen3 30B MoE의 A3B Q40 양자화 모델을 실행한 셋업·벤치마크 사례 소개
  • 네트워크 스위치를 통해 ROOT 1대 + WORKER 3대(모두 Raspberry Pi 5 8GB) 로 네트워크 구성
  • 토큰 생성 속도는 평가 단계에서 14.33 tok/s, 예측 단계에서 13.04 tok/s로 측정
  • 모델은 Qwen3 MoE 아키텍처를 기반으로 하며, 48개의 레이어와 128개의 전문가로 구성
  • 저비용 하드웨어로 고성능 언어 모델을 실행 가능하게 하여, 라즈베리 파이 클러스터의 가능성 및 비용 효율적 AI 연구가 가능해짐

프로젝트 개요

  • Distributed Llama v0.16.0을 사용해 4대의 Raspberry Pi 5 8GB에서 Qwen3 30B A3B Q40 모델을 실행
    • 저비용 장치에서 대규모 언어 모델을 실행 가능하도록 설계
    • TP-Link LS1008G 스위치로 네트워크 연결
  • 주요 목표는 고성능 컴퓨팅 자원 없이도 AI 모델을 효율적으로 구동하는 것
    • 4대의 장치(1대 루트, 3대 워커)로 작업 분산
    • IP 주소: 루트(10.0.0.2), 워커(10.0.0.1, 10.0.0.3, 10.0.0.4)

하드웨어 및 네트워크 설정

  • 구성: 4대의 Raspberry Pi 5 8GB로 구성된 클러스터
    • 각 장치는 TP-Link LS1008G 스위치로 연결
    • 루트 노드와 3개의 워커 노드가 네트워크를 통해 통신
  • 네트워크 초기화: 모든 워커 노드(10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)에 성공적으로 연결
    • 비차단 모드로 네트워크 동작
    • 데이터 전송: 평가 시 송신 12084kB, 수신 20085kB
  • CPU 활용: Neon Dotprod FP16 지원으로 최적화된 연산 처리

모델 세부 정보

  • 모델: Qwen3 30B A3B Q40
    • 아키텍처: Qwen3 MoE (Mixture of Experts)
    • 레이어 수: 48개
    • 전문가 수: 128개, 활성 전문가 8개
    • 차원: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • 토크나이저: 어휘 크기 151669, 모델 어휘 크기 151936과 약간의 불일치
    • 일반 어휘 크기: 151643
    • 특수 어휘 크기: 26
  • 메모리 요구량: 5513MB
    • 최대 시퀀스 길이: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

벤치마크 성능

  • 평가 단계
    • 배치 수: 32
    • 토큰 수: 19
    • 토큰 생성 속도: 14.33 tok/s (69.80ms/tok)
  • 예측 단계
    • 토큰 수: 109
    • 토큰 생성 속도: 13.04 tok/s (76.69ms/tok)
  • 예측 세부 로그:
    • 각 예측 단계에서 약 49~70ms 소요, 동기화 시간 14~94ms
    • 송신 데이터 636kB, 수신 데이터 1057kB로 일정
    • 예: "Of", "course", "Poland" 등의 토큰 생성
    • 스레드 수: 4
    • 버퍼 플로트 타입: Q80
    • 최대 시퀀스 길이: 4096

주의·한계(Notes & Caveats)

  • Tokenizer vocab sizeModel vocab size 불일치 경고가 존재하므로, 토크나이저 일치성 검증이 필요함
  • A3B Q40공격적 양자화에 해당하므로 정밀도·응답 품질 트레이드오프를 염두에 둘 필요가 있음
  • Pi 5 8GB × 4 구성은 메모리·연산 한계가 있으므로 프롬프트 길이·동시성·네트워크 품질에 따른 변동 가능성이 큼

실무적 의미

  • 저비용 AI 실행 가능성을 보여주는 프로젝트
  • 저비용 SBC 클러스터30B급 MoE 모델을 분산 실행한 재현 사례로, 온프레미스 경량 추론·개발용 실험의 문턱을 낮추는 참고점이 될 수 있음
  • 토큰별 네트워크·동기화 로그가 포함되어 분산 오버헤드계측·튜닝하는 데 의미 있는 데이터를 제공함
  • 분산 프레임워크 + 양자화 모델 조합이 엣지/개인 연구 환경에서 TCO 대비 성능을 끌어올릴 수 있음

Read Entire Article