자체 호스팅 Reddit 아카이브 – 23억 8천만 개 게시물, 오프라인 작동, 영구 보존

1 day ago 6

  • Reddit, Voat, Ruqqus 등 플랫폼의 데이터를 PostgreSQL 기반 HTML 아카이브로 변환하는 오픈소스 도구
  • 2.38억 개 Reddit 게시물(4만여 서브레딧 포함)을 로컬에서 처리하며, 모바일 친화적 디자인자바스크립트 없는 인터페이스 제공
  • Reddit API 접근이 사실상 중단되고 서드파티 앱과 데이터 접근이 차단되는 상황에서, 기존 Pushshift 데이터셋을 활용해 완전한 Reddit 아카이브를 개인 소유로 전환하고자 하는 시도
  • JavaScript·외부 요청·트래킹 없이 정적 HTML로 동작하며, 오프라인·에어갭 환경·USB·라즈베리파이·LAN 서버 등 다양한 형태로 운영 가능
  • PostgreSQL 전체 텍스트 검색(FTS)30개 이상의 REST API, AI 도구 연동용 MCP 서버(29개 툴) 제공으로 대규모 분석과 질의 지원

Reddit 데이터 접근 환경 변화

  • Reddit API가 아카이빙 용도로는 사실상 사용 불가 상태로 전환됨
  • 서드파티 앱 생태계 붕괴와 Pushshift 데이터셋 접근 차단 위협 반복
    • Pushshift 데이터셋은 Reddit의 공개 게시물·댓글을 장기간 수집해 축적한 대규모 아카이브로, 수십억 건의 텍스트 기록을 포함
    • Reddit 공식 API를 통해 수집된 과거 시점의 스냅샷 데이터로, 현재 Reddit 서버나 API에 접근하지 않고도 활용 가능
    • API 정책 변경과 데이터 접근 제한 이후, Reddit 역사 보존과 대규모 분석을 위한 사실상 마지막 공개 데이터 자원으로 활용되고 있음
  • Pushshift를 통해 과거 Reddit 전체 기록이 토렌트 형태로 이미 공개되어 있음

Redd-Archiver 프로젝트 개요

  • Redd-Archiver v1.0은 Reddit, Voat, Ruqqus의 공개 데이터 덤프를 변환해 탐색 가능한 HTML 아카이브를 생성
  • PostgreSQL 백엔드를 사용해 대규모 데이터셋을 일정 메모리(4GB)로 처리하며, GIN 인덱싱 기반 FTS로 빠른 검색 제공
  • HTML 출력물은 오프라인에서도 정렬·페이지네이션·댓글 트리 탐색이 가능

Redd-Archiver 아카이빙 도구의 핵심 구조

  • Reddit(.zst), Voat(SQL), Ruqqus(.7z) 덤프를 입력으로 사용
    • 멀티 플랫폼 통합: 3개의 멀티 플랫폼을 단일 아카이브로 결합. 플랫폼 자동 감지 및 통합 검색 지원
    • CLI 플래그와 URL 프리픽스로 /r/, /v/, /g/ 경로 체계 제공
  • 정적 HTML 파일 생성 방식으로 서버 의존성 제거
  • index.html 열기만으로 탐색 가능하며 외부 네트워크 불필요
    • 모바일 우선 반응형 레이아웃과 터치 친화 내비게이션
    • 점수·댓글·날짜 정렬 인덱스와 페이지네이션 제공
    • JavaScript 없는 CSS 기반 인터랙션
  • PostgreSQL FTS 구성으로 플랫폼 통합 전체 텍스트 검색 지원
    • 키워드, 작성자, 날짜, 점수 등으로 필터링
  • 게시물·댓글·유저·서브레딧·집계 쿼리를 포함한 REST API 제공
  • AI 도구에서 직접 아카이브를 질의할 수 있는 MCP 서버 포함
    • Claude Desktop 또는 Claude Code에서 게시물·댓글·유저·검색 질의 가능
  • 인스턴스당 수천만 게시물 처리 가능
  • PostgreSQL 구조로 데이터 크기와 무관하게 메모리 사용량은 일정함
  • 전체 2.38B 게시물은 주제별 다중 인스턴스로 분산 운영 권장
  • Python·PostgreSQL·Jinja2·Docker 기반 구현(Claude Code를 전반적 개발 보조로 활용함)

배포 및 운영 시나리오

  • USB 드라이브 또는 로컬 폴더 기반으로 오프라인 브라우징 지원
  • 로컬/홈랩: 단일 명령으로 HTTP 또는 Tor 환경에서 실행
  • 프로덕션 HTTPS: 자동 Let’s Encrypt 인증서 설정(약 5분)
  • Tor 히든 서비스: 포트 포워딩 없이 .onion 주소로 접근
  • 정적 호스팅: GitHub Pages 또는 Codeberg Pages에 업로드 가능 (검색 기능 제외)
  • Docker 기반 배포: PostgreSQL 포함 완전 자동화 구성
    • 오프라인 브라우징, 로컬 검색 서버, Tor/HTTPS 동시 모드 지원

공개 정보

Read Entire Article