로컬 LLM 생태계에는 Ollama가 필요하지 않다
11 hours ago
2
- Ollama는 로컬 LLM 실행을 단순화한 초기 도구였으나, 이후 출처 은폐와 클라우드 중심 전환으로 신뢰를 잃음
- 핵심 엔진인 llama.cpp의 공로를 축소하고, 자체 ggml 백엔드로 전환하면서 성능 저하와 버그 재도입이 발생
- 모델 명칭 오도, 비공개 GUI 앱 배포, 비효율적 Modelfile 구조 등으로 커뮤니티의 비판이 이어짐
- 모델 레지스트리 병목, 보안 취약점, 벤더 락인 구조가 로컬 우선 철학과 충돌
- llama.cpp, LM Studio, Jan 등 오픈소스 대안들이 이미 더 높은 성능과 투명성을 제공하며 로컬 LLM 생태계의 중심으로 자리함
Ollama의 문제점과 로컬 LLM 생태계의 대안
-
Ollama의 기원과 초기 역할
- Ollama는 로컬 LLM 실행을 간소화한 첫 llama.cpp 래퍼로 주목받음
- 사용자가 C++을 직접 빌드하거나 서버 설정을 하지 않아도 모델을 실행 가능
- 이후 출처를 숨기고, 사용자를 오도하며, 로컬 중심 철학에서 벗어나 벤처 자본 기반의 클라우드 중심 구조로 이동
- 창업자는 Jeffrey Morgan과 Michael Chiang으로, 이전에 Docker GUI인 Kitematic을 개발해 Docker Inc.에 인수된 경력 보유
- Y Combinator(W21) 출신으로 2023년 공개 출시, “Docker for LLMs”를 표방
-
llama.cpp에 대한 부적절한 크레딧
- Ollama의 추론 기능은 전적으로 Georgi Gerganov의 llama.cpp에 의존
- 1년 넘게 README, 웹사이트, 마케팅 자료 어디에도 llama.cpp 언급이 없었으며 MIT 라이선스 고지조차 누락
- 커뮤니티의 라이선스 준수 요청 이슈(#3185)는 400일 이상 응답 없음
- 이후 공동 창업자가 README 하단에 “llama.cpp project founded by Georgi Gerganov” 한 줄만 추가
- Ollama 측은 “우리가 많은 패치를 수행하고 있으며 점차 자체 엔진으로 전환할 것”이라며 의도적으로 크레딧을 축소
자체 백엔드 전환과 성능 저하
-
ggml 기반 커스텀 백엔드 도입
- 2025년 중반, Ollama는 llama.cpp 대신 ggml 기반 자체 구현체로 전환
- 안정성을 이유로 내세웠으나, 결과적으로 기존에 해결된 버그를 재도입
- 구조화 출력 오류, 비전 모델 실패, GGML assertion 충돌 등 다수 문제 발생
- GPT-OSS 20B 등 최신 모델이 작동하지 않거나 텐서 타입 미지원 문제 발생
- Gerganov는 Ollama가 ggml을 잘못 포크했다고 직접 지적
-
성능 비교 결과
- 커뮤니티 벤치마크에서 llama.cpp가 Ollama보다 1.8배 빠름 (161 vs 89 tokens/s)
- CPU에서도 30~50% 성능 차이 존재
- Qwen-3 Coder 32B 테스트에서는 llama.cpp가 70% 높은 처리량
- 원인은 Ollama의 데몬 구조, 비효율적 GPU 오프로딩, 구식 백엔드
모델 명칭 오도
-
DeepSeek-R1 사례
- Ollama는 DeepSeek-R1-Distill-Qwen-32B 등 축소 모델을 단순히 “DeepSeek-R1” 로 표기
- 실제 671B 파라미터 모델이 아님에도 동일 이름 사용
- 사용자들이 “DeepSeek-R1을 로컬에서 실행했다”고 오해하며 DeepSeek의 평판에 손상
- 관련 GitHub 이슈(#8557, #8698)는 모두 중복 처리 후 미해결 상태
- 현재도 ollama run deepseek-r1은 축소 모델을 실행
폐쇄형 앱 출시
-
GUI 앱의 비공개 배포
- 2025년 7월, macOS·Windows용 Ollama GUI 앱 공개
- 비공개 저장소에서 개발되어 라이선스 없이 배포, 소스 코드 비공개
- 오픈소스 이미지를 유지하던 프로젝트로서는 급격한 폐쇄 전환
- 커뮤니티는 AGPL-3.0 의존성 가능성과 라이선스 위반 우려 제기
- 웹사이트는 GitHub 링크 옆에 다운로드 버튼을 배치해 오픈소스인 듯한 인상 제공
- 수개월간 침묵 후 2025년 11월에야 메인 저장소로 병합
- XDA는 “오픈소스를 표방하는 프로젝트는 공개 여부를 명확히 해야 한다”고 비판
Modelfile의 비효율성
-
GGUF 포맷과의 중복
- GGUF 포맷은 모델 실행에 필요한 모든 정보를 단일 파일에 포함
- Ollama는 여기에 Modelfile이라는 별도 설정 파일을 추가, Dockerfile과 유사한 구조
- 이미 GGUF에 포함된 정보를 중복 정의하며 불필요한 복잡성 초래
- Ollama는 하드코딩된 템플릿 목록만 자동 인식, 새로운 템플릿은 무시됨
- 결과적으로 모델의 지시문 형식이 깨지고, 사용자가 수동 변환해야 함
-
비효율적 파라미터 수정
- 파라미터 변경 시 ollama show --modelfile로 추출 후 수정, ollama create로 재생성 필요
- 이 과정에서 30~60GB 모델 전체 복사 발생
- 커뮤니티는 이를 “비효율적이고 불필요한 복제”라 비판
- llama.cpp는 단순히 명령줄 인자로 파라미터 조정 가능
-
템플릿 호환성 문제
- Ollama는 Go 템플릿 문법을 사용, 모델 제작자가 사용하는 Jinja 템플릿과 불일치
- LM Studio와 llama.cpp는 Jinja를 직접 지원하지만, Ollama는 변환 필요
- 변환 오류로 인한 대화 형식 깨짐 문제 다수 보고
모델 레지스트리의 병목
-
모델 등록 지연
- 새로운 모델이 Hugging Face에 올라와도 Ollama는 직접 패키징 후 등록해야 사용 가능
- 지원하는 양자화 형식도 Q4_K_M, Q8_0 등 제한적
- 결과적으로 모델 출시 후 Ollama에서 사용까지 지연 발생
- 커뮤니티에서는 “새 모델 테스트는 llama.cpp나 vLLM을 사용하라”는 PSA 게시물 확산
-
양자화 제약
- Ollama는 Q5, Q6, IQ 계열 미지원
- 사용자가 요청해도 “다른 도구를 사용하라”는 답변
- ollama run hf.co/{repo}:{quant} 명령으로 Hugging Face 직접 호출 가능해졌지만,
여전히 내부 해시 저장소에 복사되고 공유 불가, 템플릿 문제도 지속
클라우드 전환과 보안 문제
-
클라우드 모델 도입
- 2025년 말, Ollama는 클라우드 호스팅 모델을 추가
- 로컬 중심 도구였음에도 일부 모델이 외부 서버로 프롬프트를 전송
- MiniMax 등 서드파티 모델 사용 시 데이터가 외부로 전달될 수 있음
- Ollama는 “로그 저장 안 함”이라 명시했으나 제3자 정책은 불명확
- Alibaba Cloud 기반 모델의 경우 데이터 보존 보장 없음
-
보안 취약점
- CVE-2025-51471: 악성 레지스트리 서버가 인증 토큰을 탈취할 수 있는 취약점
- 수정 PR은 존재했으나 수개월간 미반영
- 로컬 프라이버시를 핵심 가치로 내세운 도구로서는 심각한 구조적 문제
벤처 자본 중심의 구조
-
반복되는 패턴
- 오픈소스 프로젝트를 래핑해 사용자 기반 확보 → 투자 유치 → 수익화 전환
- Ollama의 단계별 행보
- 오픈소스로 시작, llama.cpp 기반 구축
- 출처 축소, 독립적 제품처럼 포장
- 모델 레지스트리와 포맷으로 락인 유도
- 폐쇄형 GUI 출시
- 클라우드 서비스 도입으로 수익화
-
벤더 락인 구조
- Ollama는 모델을 해시된 파일명으로 저장해 다른 도구와 호환 어려움
- GGUF를 가져올 수는 있지만 내보내기는 불편하게 설계
- 사용자는 Ollama 생태계에 묶이게 되는 구조
대안 도구
-
llama.cpp
- OpenAI 호환 API 서버(‘llama-server’), 웹 UI, 세밀한 파라미터 제어, 높은 처리량 제공
- 2026년 2월, ggml.ai가 Hugging Face에 합류하여 지속 가능성 확보
- MIT 라이선스 기반, 450명 이상 기여자 참여
-
기타 대안
- llama-swap: 다중 모델 로딩·핫스왑 지원
- LiteLLM: 여러 백엔드 간 OpenAI 호환 프록시 제공
- LM Studio: GUI 기반, llama.cpp 사용, GGUF 완전 호환
- Jan, Msty: 로컬 우선 설계의 오픈소스 데스크톱 앱
- koboldcpp, Red Hat ramalama: 컨테이너 기반 모델 실행, 명확한 출처 표기
결론: 로컬 LLM 생태계의 방향
- Georgi Gerganov의 llama.cpp는 로컬 AI 혁신의 기반
- 커뮤니티 협업으로 소비자 하드웨어에서도 강력한 모델 실행 가능
- Ollama는 이 기반 위에서 성장했으나
출처 은폐, 품질 저하, 폐쇄화, 클라우드 전환으로 신뢰 상실
- 로컬 LLM 생태계가 필요한 것은 Ollama가 아니라 llama.cpp
- 진정한 개방성과 성능은 이미 커뮤니티 중심 도구들이 제공 중임
-
Homepage
-
Tech blog
- 로컬 LLM 생태계에는 Ollama가 필요하지 않다