Shimmy - Ollama를 대체 가능한 개인 프라이버시 중심의 경량 OpenAI API 서버

2 days ago 3

  • 로컬 환경에서 LLM을 완전 오프라인으로 실행하기 위해 설계된 도구로, Ollama보다 142배 작은 4.8MB 단일 바이너리 형태 제공
  • OpenAI API와 100% 호환되어 기존 Python, Node.js, VSCode Copilot, Cursor, Continue.dev 등 개발 도구를 그대로 연결 가능
  • 설치 직후 즉시 작동하는 제로 설정(Zero-Config) 구조
    • Hugging Face, Ollama, 로컬 디렉터리 등에서 자동 모델 탐색
    • 자동 포트 할당LoRA 어댑터 감지 기능 지원
  • MOE(Mixture of Experts) 기반 CPU/GPU 하이브리드 추론 기능으로 70B 이상 대형 모델을 일반 PC에서 실행 가능
    • CPU 오프로딩지능형 레이어 분배로 VRAM 부족 환경에서도 안정적 실행
    • --cpu-moe, --n-cpu-moe 옵션으로 세부 제어 가능
  • GPU 가속을 위한 CUDA, Vulkan, OpenCL, MLX(Apple Silicon) 등 다양한 백엔드 지원
    • 런타임에서 자동 감지하며, GPU 미탑재 시 CPU로 자동 전환
  • Rust + Tokio 기반의 비동기 아키텍처로 높은 성능과 메모리 안정성 확보
    • llama.cpp 백엔드 사용으로 GGUF 모델 호환
    • LRU 캐시, 자동 로드 밸런싱, Prometheus 통합 모니터링 등 포함
  • 보안 및 프라이버시 중심 설계
    • 데이터와 코드가 로컬을 벗어나지 않음
    • API 키, 요금제, 토큰 과금 필요없음
  • MIT 라이선스로 영구 무료 제공됨 : “FREE now, FREE forever”

Read Entire Article