월 20달러 기술 스택으로 여러 개의 월 1만 달러 MRR 회사를 운영하는 방법

2 weeks ago 25
  • 단일 VPS, Go 언어, SQLite, 로컬 GPU를 활용해 월 20달러 이하의 인프라 비용으로 MRR 1만 달러 이상의 SaaS 회사를 복수 운영하는 부트스트래핑 전략
  • AWS나 복잡한 클라우드 오케스트레이션 대신 5~10달러짜리 VPS 한 대로 모든 서비스를 운영하며, 인프라 관리가 아닌 요청 처리에 집중
  • 백엔드 언어로 Go를 선택해 의존성 관리 없이 단일 바이너리로 컴파일 후 서버에 배포하는 극도로 단순한 배포 프로세스 확보
  • 로컬 GPU(RTX 3090)에서 VLLM을 실행해 AI 배치 처리 비용을 제로로 만들고, 사용자 대면 기능에만 OpenRouter를 통해 프론티어 모델 사용
  • 벤처 캐피털 없이도 비용을 거의 제로로 유지하면 사실상 무한한 런웨이를 확보할 수 있으며, 제품-시장 적합성을 찾는 데 충분한 시간 확보 가능

린(Lean) 서버 운영 전략

  • 2026년 웹 앱 출시의 일반적 방식은 AWS에서 EKS 클러스터, RDS 인스턴스, NAT Gateway를 프로비저닝하는 것이며, 이 경우 사용자 한 명 없이도 월 300달러 이상 지출 발생
  • 대안으로 Linode 또는 DigitalOcean에서 월 5~10달러짜리 VPS를 임대해 단일 서버로 운영
  • 1GB RAM도 적절히 활용하면 충분하며, 여유가 필요하면 swapfile 사용
  • 서버가 하나이면 로그 위치, 크래시 원인, 재시작 방법을 정확히 파악 가능
  • AWS 대신 VPS를 선택하는 이유는 예측 가능한 비용단순한 아키텍처 유지

Go 언어를 선택하는 이유

  • Python이나 Ruby는 인터프리터 부팅과 gunicorn 워커 관리만으로 RAM의 절반을 소모
  • Go는 웹 작업에서 훨씬 뛰어난 성능을 제공하고, 엄격한 타입 시스템을 갖추며, 2026년 기준 LLM이 추론하기 매우 쉬운 언어
  • Go의 핵심 장점은 배포 프로세스의 단순성: 전체 애플리케이션을 단일 정적 링크 바이너리로 컴파일해 노트북에서 빌드 후 scp로 서버에 전송하여 실행
  • pip install 의존성 지옥이나 가상 환경이 불필요하며, 블로팅된 프레임워크 없이도 프로덕션 수준 웹 서버 구현 가능
  • 기본 Go 표준 라이브러리만으로 초당 수만 건의 요청을 처리할 수 있는 서버 작성 가능

로컬 AI 활용: 배치 작업의 비용 제로화

  • 집에 그래픽 카드가 있다면 무제한 AI 크레딧을 이미 보유한 것과 동일
  • eh-trade.ca 구축 시 수천 개 기업의 분기 보고서를 분석하는 대규모 정성적 주식 리서치가 필요했으며, OpenAI API 사용 시 수백 달러가 소요될 수 있었음
  • 대신 Facebook Marketplace에서 900달러에 구매한 RTX 3090(24GB VRAM) 에서 VLLM을 실행해 AI 제공업체에 비용을 지불할 필요 제거
  • 로컬 AI 업그레이드 경로:
    • Ollama로 시작: 한 줄 명령어(ollama run qwen3:32b)로 설정하고 다양한 모델을 즉시 테스트하며 프롬프트 반복에 최적
    • VLLM으로 프로덕션 전환: Ollama는 동시 요청 시 병목이 되며, VLLM은 PagedAttention을 사용해 비약적으로 빠름. 8~16개 비동기 요청을 동시 전송하면 GPU 메모리에서 배치 처리하여 1개 요청 처리 시간과 거의 동일
    • Transformer Lab: 모델 사전 학습이나 파인튜닝이 필요할 때 로컬 하드웨어에서 쉽게 수행 가능
  • 이를 관리하기 위해 자체 개발한 laconic: 8K 컨텍스트 윈도우에 최적화된 에이전트 연구 도구로, OS의 가상 메모리 관리자처럼 대화의 불필요한 부분을 "페이지 아웃"하여 핵심 사실만 활성 LLM 컨텍스트에 유지
  • llmhub: 모든 LLM을 provider/endpoint/apikey 조합으로 추상화하여 텍스트와 이미지 IO를 로컬이든 클라우드든 원활하게 처리하는 도구

OpenRouter를 통한 프론티어 모델 접근

  • 모든 작업을 로컬에서 처리할 수는 없으며, 사용자 대면 저지연 채팅 상호작용에는 Claude 3.5 Sonnet이나 GPT-4o 같은 최첨단 추론 모델이 필요
  • Anthropic, Google, OpenAI 각각의 빌링 계정, API 키, 속도 제한을 관리하는 대신 OpenRouter 하나로 통합
  • OpenAI 호환 통합 코드 하나만 작성하면 모든 주요 프론티어 모델에 즉시 접근 가능
  • 원활한 폴백 라우팅 지원: Anthropic API 장애 시 자동으로 동등한 OpenAI 모델로 전환되어 사용자는 오류 화면을 전혀 보지 않으며 복잡한 재시도 로직 불필요

GitHub Copilot을 활용한 비용 효율적 AI 코딩

  • 새로운 고가 모델이 매주 출시되는 가운데, 개발자들이 Cursor 구독과 Anthropic API 키에 월 수백 달러를 지출
  • 반면 Claude Opus 4.6을 하루 종일 사용해도 월 비용이 60달러를 거의 넘지 않음
  • 비결은 Microsoft의 가격 모델 활용: 2023년에 GitHub Copilot 구독을 구매해 표준 VS Code에 연결
  • Copilot의 핵심 트릭: Microsoft는 토큰 단위가 아닌 요청 단위로 과금하며, "요청"은 채팅 박스에 입력하는 내용 하나. 에이전트가 30분간 전체 코드베이스를 분석하고 수백 개 파일을 변경해도 약 0.04달러만 소요
  • 최적 전략: 엄격한 성공 기준이 포함된 상세한 프롬프트를 작성하고, "모든 오류가 수정될 때까지 계속 진행"이라고 지시한 후 실행하면 됨

SQLite를 모든 데이터베이스로 활용

  • 새로운 벤처를 시작할 때 항상 sqlite3를 메인 데이터베이스로 사용
  • 엔터프라이즈 관점에서는 별도 프로세스의 데이터베이스 서버가 필요하다고 여기지만, 실제로 C 인터페이스나 메모리를 통해 통신하는 로컬 SQLite 파일은 원격 Postgres 서버로 TCP 네트워크 홉을 거치는 것보다 수 자릿수 빠름
  • 동시성 문제에 대한 오해: SQLite가 모든 쓰기에서 전체 데이터베이스를 잠근다는 인식은 잘못된 것이며, Write-Ahead Logging(WAL) 활성화로 해결
    • PRAGMA journal_mode=WAL;과 PRAGMA synchronous=NORMAL; 설정 시 읽기와 쓰기가 서로 차단하지 않음
    • NVMe 드라이브의 단일 .db 파일로 수천 명의 동시 사용자 처리 가능
  • 사용자 인증 구현 편의를 위해 자체 라이브러리 smhanov/auth 개발: 사용 중인 데이터베이스와 직접 통합되며 가입, 세션, 비밀번호 재설정, Google/Facebook/X/SAML 로그인 지원

결론: 복잡한 인프라 없는 스타트업 구축

  • 기술 업계는 실제 비즈니스 구축에 복잡한 오케스트레이션, 대규모 월 AWS 비용, 수백만 달러의 벤처 캐피털이 필요하다고 주장하지만 그렇지 않음
  • 단일 VPS, 정적 컴파일 바이너리, 로컬 GPU 하드웨어를 통한 배치 AI 작업, SQLite의 원시 속도를 결합하면 월 커피 몇 잔 가격으로 확장 가능한 스타트업 부트스트래핑 가능
  • 프로젝트에 무한한 런웨이를 부여해 번 레이트(burn rate) 걱정 대신 사용자 문제 해결에 집중할 시간 확보
Read Entire Article