아카이브 저장 (Archival Storage)

19 hours ago 2

  • 디지털 보존(Digital Preservation) 전문가인 David Rosenthal의 발표 내용 요약

백업(Backup)과 아카이브(Archival)의 차이점

  • 백업은 재난 발생 시 최근 상태로 복구하기 위해 필요함
    • 백업 데이터의 유효 수명은 마지막 백업부터 복구까지의 시간에 의해 결정됨
    • 백업 데이터의 저장 매체 수명은 중요하지 않음
  • 디지털 보존 분야에서 거의 20년 동안 일한 후, 나의 4 가지 중요 시스템 백업 방법
    • 메일 및 웹 서버: Raspberry Pi에 주간 전체 백업 및 일일 증분 백업 수행 → 주간 백업을 DVD-R에 저장
    • 데스크탑 PC: 외장 하드 드라이브에 야간 전체 백업 수행 → 주기적으로 3개의 하드 드라이브에 순환 저장
    • iPhone: Mac Air에 매일 백업 → Time Machine을 통해 SSD에 주기적 백업
    • 오프사이트 보관: 매주 DVD-R, SSD 및 하드 드라이브를 외부 장소에 보관
  • 아카이브 데이터란?
    • 시간이 지남에 따라 데이터는 저장 계층 구조에서 아래로 내려감
    • 아카이브 데이터 = 운영 저장소에서 유지 비용을 감당할 수 없는 데이터
    • 아카이브 저장 시스템의 주요 목표는 비용 절감이며, 접근 속도 지연을 감수함

아카이브 저장 매체의 현실

  • 언론에서 '영원히 보관 가능한 저장소'에 대한 과장이 많음
  • 연구에서 나온 새로운 저장 기술이 시장에서 대규모로 사용될 가능성은 낮음
  • 아카이브 전용 매체는 시장 수요가 낮아 상업적으로 성공하기 어려움
    • 예: LTO 테이프는 전체 저장 매체 시장의 1% 미만을 차지
    • 2023년 OD-3 (1TB 광 디스크) 가 시장 부족으로 취소됨

저장 매체의 도입 시기 문제

  • 새로운 저장 기술이 시장에 도입되기까지 시간이 오래 걸림
  • HAMR 하드 드라이브: 연구 시작 후 26년이 지난 후 도입됨
  • 실리카 및 DNA 저장소: 수십 년 연구 중이지만 상용화까지는 최소 5년 이상 필요

저장 매체의 경제성 문제

  • 저장 매체 자체보다 저장 시스템 인프라 비용이 훨씬 중요함
    • 테이프, 디스크 등 저장 매체 비용은 전체 비용에서 비중이 낮음
    • 데이터 센터 규모에서 운영해야 비용이 절감됨
    • 아카이브 저장은 소규모로 운영 시 경제성이 떨어짐

클라우드 저장과 락인(Lock-in) 문제

  • 클라우드 서비스의 아카이브 저장 비용은 장기적으로 매우 비쌈
  • Amazon Glacier: 장기 보관 시 비용 절감 가능하나, 데이터 복구 비용이 높음
    • 저장 비용: $10,900/연간
    • 복구 비용: $49,550 (1PB 기준)
    • 총 비용: $60,950
    • 락인 기간: 50.0개월
  • Google Archive: 높은 저장 및 복구 비용 → 장기 보관에 비효율적
    • 저장 비용: $13,200/연간
    • 복구 비용: $210,810 (1PB 기준)
    • 총 비용: $224,510
    • 락인 기간: 175.6개월
  • Microsoft Archive: 보관 비용은 낮으나 데이터 복구 비용이 높음
    • 저장 비용: $22,000/연간
    • 복구 비용: $40,100 (1PB 기준)
    • 총 비용: $62,200
    • 락인 기간: 20.0개월
  • 락인 문제: 데이터 복구 비용이 높아 데이터 이동이 어려워짐
  • Amazon Glacier는 저장 비용이 가장 저렴하고 복구 비용도 상대적으로 낮음

Project Silica (마이크로소프트의 실리카 프로젝트)

  • 실리카: 초고밀도 데이터 저장 매체
    • 펨토초 레이저로 실리카 플래터에 데이터 저장
    • 저장 밀도가 높고 물리적 안정성이 뛰어남
  • 비용 문제: 펨토초 레이저 비용이 높음 → 대량 생산으로 가격 인하 기대
  • 읽기/쓰기 분리 → 보안 강화 및 데이터 무결성 보장
  • 읽기 속도 문제: 응답 시간 15시간 예상 → 대규모 시스템에서만 효율적

데이터 복구 문제

  • 아카이브에서 중요한 것은 데이터 복구 가능성
  • 마이크로소프트는 스발바르(Svalbard) 섬에 필름 기반 오픈 소스 코드 저장
    • 재난 이후 복구 가능성은 낮음
    • 원거리 및 악천후로 인해 접근 어려움

LOCKSS 시스템 (Lots Of Copies Keep Stuff Safe)

  • 저비용 저장 매체에 다수의 복사본을 보관 → 데이터 안전성 강화
  • 백업 및 복구는 값비싼 시스템보다 복제본 다수를 통해 보장
  • 비용 효율성이 중요 → 고가의 저장 매체보다 저렴한 저장 시스템 선호

결론

  • 아카이브 저장의 핵심은 기술이 아니라 경제성
    • 아카이브 전용 매체는 경제적으로 비효율적
    • 클라우드 서비스는 높은 복구 비용 → 락인 문제 발생
  • 대규모 데이터 센터에서 운영해야 장기 저장 비용 절감 가능
  • Project Silica는 아카이브 저장 기술 중 가장 유망하지만 상용화까지는 시간 필요

Read Entire Article