- 소형 라즈베리파이 보드 4대를 분산 추론 노드로 묶어 Qwen3 30B MoE의 A3B Q40 양자화 모델을 실행한 셋업·벤치마크 사례 소개
- 네트워크 스위치를 통해 ROOT 1대 + WORKER 3대(모두 Raspberry Pi 5 8GB) 로 네트워크 구성
- 토큰 생성 속도는 평가 단계에서 14.33 tok/s, 예측 단계에서 13.04 tok/s로 측정
- 모델은 Qwen3 MoE 아키텍처를 기반으로 하며, 48개의 레이어와 128개의 전문가로 구성
- 저비용 하드웨어로 고성능 언어 모델을 실행 가능하게 하여, 라즈베리 파이 클러스터의 가능성 및 비용 효율적 AI 연구가 가능해짐
프로젝트 개요
-
Distributed Llama v0.16.0을 사용해 4대의 Raspberry Pi 5 8GB에서 Qwen3 30B A3B Q40 모델을 실행
- 저비용 장치에서 대규모 언어 모델을 실행 가능하도록 설계
- TP-Link LS1008G 스위치로 네트워크 연결
-
주요 목표는 고성능 컴퓨팅 자원 없이도 AI 모델을 효율적으로 구동하는 것
- 4대의 장치(1대 루트, 3대 워커)로 작업 분산
- IP 주소: 루트(10.0.0.2), 워커(10.0.0.1, 10.0.0.3, 10.0.0.4)
하드웨어 및 네트워크 설정
-
구성: 4대의 Raspberry Pi 5 8GB로 구성된 클러스터
- 각 장치는 TP-Link LS1008G 스위치로 연결
- 루트 노드와 3개의 워커 노드가 네트워크를 통해 통신
-
네트워크 초기화: 모든 워커 노드(10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)에 성공적으로 연결
- 비차단 모드로 네트워크 동작
- 데이터 전송: 평가 시 송신 12084kB, 수신 20085kB
-
CPU 활용: Neon Dotprod FP16 지원으로 최적화된 연산 처리
모델 세부 정보
-
모델: Qwen3 30B A3B Q40
-
아키텍처: Qwen3 MoE (Mixture of Experts)
-
레이어 수: 48개
-
전문가 수: 128개, 활성 전문가 8개
-
차원: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
-
토크나이저: 어휘 크기 151669, 모델 어휘 크기 151936과 약간의 불일치
- 일반 어휘 크기: 151643
- 특수 어휘 크기: 26
-
메모리 요구량: 5513MB
- 최대 시퀀스 길이: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000
벤치마크 성능
-
평가 단계
- 배치 수: 32
- 토큰 수: 19
-
토큰 생성 속도: 14.33 tok/s (69.80ms/tok)
-
예측 단계
- 토큰 수: 109
-
토큰 생성 속도: 13.04 tok/s (76.69ms/tok)
-
예측 세부 로그:
- 각 예측 단계에서 약 49~70ms 소요, 동기화 시간 14~94ms
- 송신 데이터 636kB, 수신 데이터 1057kB로 일정
- 예: "Of", "course", "Poland" 등의 토큰 생성
- 스레드 수: 4
- 버퍼 플로트 타입: Q80
- 최대 시퀀스 길이: 4096
주의·한계(Notes & Caveats)
-
Tokenizer vocab size와 Model vocab size 불일치 경고가 존재하므로, 토크나이저 일치성 검증이 필요함
-
A3B Q40은 공격적 양자화에 해당하므로 정밀도·응답 품질 트레이드오프를 염두에 둘 필요가 있음
-
Pi 5 8GB × 4 구성은 메모리·연산 한계가 있으므로 프롬프트 길이·동시성·네트워크 품질에 따른 변동 가능성이 큼
실무적 의미
-
저비용 AI 실행 가능성을 보여주는 프로젝트
-
저비용 SBC 클러스터로 30B급 MoE 모델을 분산 실행한 재현 사례로, 온프레미스 경량 추론·개발용 실험의 문턱을 낮추는 참고점이 될 수 있음
-
토큰별 네트워크·동기화 로그가 포함되어 분산 오버헤드를 계측·튜닝하는 데 의미 있는 데이터를 제공함
-
분산 프레임워크 + 양자화 모델 조합이 엣지/개인 연구 환경에서 TCO 대비 성능을 끌어올릴 수 있음