라즈베리파이의 새로운 AI HAT, 로컬 LLM을 위한 8GB RAM 추가

4 hours ago 2

Raspberry Pi AI HAT+ 2는 Hailo 10H NPU와 8GB LPDDR4X RAM을 탑재해 로컬 LLM 추론을 독립적으로 수행할 수 있음
최대 3W 전력 소모, 40 TOPS(INT8) 성능을 제공하지만 실제 테스트에서는 Pi 5 CPU보다 느린 결과를 보임
전력 제한(3W) 과 RAM 용량(8GB) 이 병목으로 작용해, 중간 규모 모델 실행에는 16GB Pi 5가 더 효율적임
비전 처리(Computer Vision) 에서는 기존 AI HAT 대비 10배 빠른 속도를 보였으나, 소프트웨어 호환성 문제와 동시 모델 실행 오류가 발생함
저전력 환경에서 비전 + 추론 병행이 필요한 경우를 제외하면, 개발용 보드나 실험용 플랫폼으로서의 가치가 더 큼

AI HAT+ 2의 주요 사양과 특징

새 모델은 가격 130달러, Hailo 10H NPU와 8GB LPDDR4X RAM을 포함
- Hailo 10H는 40 TOPS INT8 추론 성능과 26 TOPS INT4 비전 성능을 제공
- Pi의 CPU와 시스템 메모리를 점유하지 않고 독립적으로 LLM 실행 가능
RAM 업그레이드 불가 문제는 여전하지만, AI 보조 프로세서로 활용 시 메모리 부담을 줄일 수 있음
eGPU 연결 대비 저렴하고 컴팩트, Microsoft의 ‘AI PC’ 내장 NPU보다 실용적이라는 평가

실제 성능 평가

테스트는 8GB RAM 구성의 Raspberry Pi 5에서 동일 모델을 CPU와 NPU로 각각 실행해 비교
- 대부분의 모델에서 Pi 5 CPU가 Hailo 10H보다 빠른 성능을 보임
- 유일하게 Qwen2.5 Coder 1.5B 모델에서만 근접한 결과
Hailo 10H는 전력 효율성은 높지만, 3W 전력 제한으로 인해 성능이 제약됨
- Pi 5 SoC는 최대 10W 전력 사용 가능

LLM 실행 한계와 Qwen 30B 사례

8GB RAM은 LLM 실행 시 가장 큰 제약 요소
- 중간 규모 모델은 10~12GB RAM을 요구하며, 16GB Pi 5에서 더 적합
ByteShape는 Qwen3 30B A3B Instruct 모델을 16GB Pi 5에 맞게 10GB로 압축해 실행 성공
- 품질 손실은 있으나, 간단한 앱 생성 등 기본 작업 수행 가능
llama.cpp를 이용해 Pi 5에서 모델을 실행한 결과, 속도는 느리지만 로컬 모델로 실용적 작업 수행 가능

비전 처리 성능 및 소프트웨어 문제

Computer Vision 작업에서는 Pi CPU 대비 10배 빠른 처리 속도를 보임
- Camera Module 3으로 테스트 시 키보드, 모니터, 휴대폰, 마우스 등을 정확히 인식
그러나 Hailo 예제 코드(hailo-rpi5-examples) 는 아직 AI HAT+ 2 지원 미비
- 수동 설정 시 모델 로드 실패 또는 오류 발생
동시 모델 실행(비전 + LLM) 시 세그멘테이션 오류와 ‘device not ready’ 문제 발생
- Hailo의 작동 예시 부재로 테스트 완료 불가

결론 및 활용 가능성

8GB RAM은 유용하지만, 16GB Pi 5가 더 빠르고 유연한 선택
저전력 환경에서 비전 처리와 추론을 병행해야 하는 경우에 한해 실용성 존재
AI Camera(70달러) 나 기존 AI HAT+(110달러) 조합이 더 효율적일 수 있음
소형 LLM 실행(10W 이하) 또는 Hailo 10H 기반 장치 개발용 키트로서의 활용 가능성
전반적으로 하드웨어는 앞서 있으나 소프트웨어 완성도 부족, 니치한 용도 중심의 제품으로 평가됨

Read Entire Article