- Reddit, Voat, Ruqqus 등 플랫폼의 데이터를 PostgreSQL 기반 HTML 아카이브로 변환하는 오픈소스 도구
- 2.38억 개 Reddit 게시물(4만여 서브레딧 포함)을 로컬에서 처리하며, 모바일 친화적 디자인과 자바스크립트 없는 인터페이스 제공
- Reddit API 접근이 사실상 중단되고 서드파티 앱과 데이터 접근이 차단되는 상황에서, 기존 Pushshift 데이터셋을 활용해 완전한 Reddit 아카이브를 개인 소유로 전환하고자 하는 시도
-
JavaScript·외부 요청·트래킹 없이 정적 HTML로 동작하며, 오프라인·에어갭 환경·USB·라즈베리파이·LAN 서버 등 다양한 형태로 운영 가능
-
PostgreSQL 전체 텍스트 검색(FTS) 과 30개 이상의 REST API, AI 도구 연동용 MCP 서버(29개 툴) 제공으로 대규모 분석과 질의 지원
Reddit 데이터 접근 환경 변화
- Reddit API가 아카이빙 용도로는 사실상 사용 불가 상태로 전환됨
- 서드파티 앱 생태계 붕괴와 Pushshift 데이터셋 접근 차단 위협 반복
-
Pushshift 데이터셋은 Reddit의 공개 게시물·댓글을 장기간 수집해 축적한 대규모 아카이브로, 수십억 건의 텍스트 기록을 포함
- Reddit 공식 API를 통해 수집된 과거 시점의 스냅샷 데이터로, 현재 Reddit 서버나 API에 접근하지 않고도 활용 가능
- API 정책 변경과 데이터 접근 제한 이후, Reddit 역사 보존과 대규모 분석을 위한 사실상 마지막 공개 데이터 자원으로 활용되고 있음
- Pushshift를 통해 과거 Reddit 전체 기록이 토렌트 형태로 이미 공개되어 있음
Redd-Archiver 프로젝트 개요
-
Redd-Archiver v1.0은 Reddit, Voat, Ruqqus의 공개 데이터 덤프를 변환해 탐색 가능한 HTML 아카이브를 생성
-
PostgreSQL 백엔드를 사용해 대규모 데이터셋을 일정 메모리(4GB)로 처리하며, GIN 인덱싱 기반 FTS로 빠른 검색 제공
-
HTML 출력물은 오프라인에서도 정렬·페이지네이션·댓글 트리 탐색이 가능
Redd-Archiver 아카이빙 도구의 핵심 구조
- Reddit(.zst), Voat(SQL), Ruqqus(.7z) 덤프를 입력으로 사용
-
멀티 플랫폼 통합: 3개의 멀티 플랫폼을 단일 아카이브로 결합. 플랫폼 자동 감지 및 통합 검색 지원
- CLI 플래그와 URL 프리픽스로 /r/, /v/, /g/ 경로 체계 제공
- 정적 HTML 파일 생성 방식으로 서버 의존성 제거
- index.html 열기만으로 탐색 가능하며 외부 네트워크 불필요
- 모바일 우선 반응형 레이아웃과 터치 친화 내비게이션
- 점수·댓글·날짜 정렬 인덱스와 페이지네이션 제공
- JavaScript 없는 CSS 기반 인터랙션
- PostgreSQL FTS 구성으로 플랫폼 통합 전체 텍스트 검색 지원
- 게시물·댓글·유저·서브레딧·집계 쿼리를 포함한 REST API 제공
-
AI 도구에서 직접 아카이브를 질의할 수 있는 MCP 서버 포함
- Claude Desktop 또는 Claude Code에서 게시물·댓글·유저·검색 질의 가능
- 인스턴스당 수천만 게시물 처리 가능
- PostgreSQL 구조로 데이터 크기와 무관하게 메모리 사용량은 일정함
- 전체 2.38B 게시물은 주제별 다중 인스턴스로 분산 운영 권장
- Python·PostgreSQL·Jinja2·Docker 기반 구현(Claude Code를 전반적 개발 보조로 활용함)
배포 및 운영 시나리오
- USB 드라이브 또는 로컬 폴더 기반으로 오프라인 브라우징 지원
-
로컬/홈랩: 단일 명령으로 HTTP 또는 Tor 환경에서 실행
-
프로덕션 HTTPS: 자동 Let’s Encrypt 인증서 설정(약 5분)
-
Tor 히든 서비스: 포트 포워딩 없이 .onion 주소로 접근
-
정적 호스팅: GitHub Pages 또는 Codeberg Pages에 업로드 가능 (검색 기능 제외)
-
Docker 기반 배포: PostgreSQL 포함 완전 자동화 구성
- 오프라인 브라우징, 로컬 검색 서버, Tor/HTTPS 동시 모드 지원
공개 정보