ArchiveBox가 진화중: 셀프 호스팅 인터넷 아카이브의 미래

2 weeks ago 7

  • ArchiveBox는 인터넷 아카이브를 자체 호스팅할 수 있는 새로운 기능을 소개
  • 최근 Archive.org에 대한 공격 이후, ArchiveBox에 대한 관심이 증가하고 있음
    • ArchiveBox는 Archive.org의 사명을 지지하며, 그들의 서비스가 인류에게 중요한 가치를 제공한다고 강조함

공공 아카이브의 한계

  • 사람들은 영구적으로 아카이브하는 것에 대한 두려움으로 인해 아카이브를 꺼려함
  • 개인이 중요하다고 생각하는 것을 아카이브할 수 있는 권한이 필요함
  • 현대 웹 환경에 맞춰 개인 및 반개인적 콘텐츠를 아카이브할 수 있는 솔루션이 필요함

아카이빙의 중요성

  • 가족, 개인, 기업 모두 자신에게 중요한 콘텐츠를 보존하고 싶어함
  • 개인적인 콘텐츠 아카이빙은 보안상의 도전 과제가 있으며 주의가 필요함

악의적인 콘텐츠

  • 공공 아카이브는 때때로 인종차별, 폭력, 증오 발언과 같은 콘텐츠를 보존함으로써 문제를 일으킬 수 있음
  • 이러한 콘텐츠를 보존하는 방법에 대한 고민이 필요함

ArchiveBox의 새로운 플러그인 생태계 소개

  • ArchiveBox v0.8은 프로젝트 역사상 가장 큰 업데이트로, 새로운 플러그인 생태계를 도입함
  • 다양한 커뮤니티 지원 기능을 제공하는 플러그인들이 포함됨
    • yt-dlp는 YouTube, Soundcloud, YouKu 등에서 비디오, 오디오, 자막을 다운로드
    • papers-dl은 DOI 번호가 보이면 과학 논문 PDF를 자동으로 다운로드
    • gallery-dl은 Flickr, Instagram 등에서 사진 갤러리를 다운로드
    • forum-dl은 오래된 포럼과 깊이 중첩된 댓글 스레드를 다운로드
    • readability는 기사 텍스트를 .txt, .md, .epub로 추출
    • ai는 페이지 스크린샷과 텍스트를 사용자 지정 프롬프트와 함께 LLM에 보내고 응답을 저장
    • webhooks는 일부 결과가 저장될 때마다 외부 API를 트리거하고 Slack, N8N 등에 ping을 보냄
    • 그 외에도 많은 기능들이 있음
  • 플러그인 시스템은 pluggy와 pydantic 라이브러리를 기반으로 함

추가 개발 사항

  • 새로운 REST API가 django-ninja로 구축됨
  • 외부 저장소 지원 추가
  • 콘텐츠 주소 지정 가능한 저장소 시스템의 초기 단계 도입
  • 백그라운드 작업 시스템 추가
  • 간단한 사용자를 위한 새로운 도구 abx-dl 출시 예정

"ArchiveBox는 SQLite를 사용하여 로컬 우선(Local-First)으로 설계되었으며, P2P는 항상 선택 사항임"

GN⁺의 정리

  • ArchiveBox는 개인 및 기업이 자신만의 인터넷 아카이브를 구축할 수 있도록 돕는 도구로, 최근의 변화는 이를 더욱 강화함
  • 공공 아카이브의 한계를 보완하고, 개인적이고 민감한 콘텐츠를 안전하게 보존할 수 있는 방법을 제공함
  • 플러그인 생태계는 다양한 기능을 제공하여 사용자 경험을 향상시킴

Read Entire Article