-
디지털 보존(Digital Preservation) 전문가인 David Rosenthal의 발표 내용 요약
백업(Backup)과 아카이브(Archival)의 차이점
-
백업은 재난 발생 시 최근 상태로 복구하기 위해 필요함
- 백업 데이터의 유효 수명은 마지막 백업부터 복구까지의 시간에 의해 결정됨
- 백업 데이터의 저장 매체 수명은 중요하지 않음
- 디지털 보존 분야에서 거의 20년 동안 일한 후, 나의 4 가지 중요 시스템 백업 방법
-
메일 및 웹 서버: Raspberry Pi에 주간 전체 백업 및 일일 증분 백업 수행 → 주간 백업을 DVD-R에 저장
-
데스크탑 PC: 외장 하드 드라이브에 야간 전체 백업 수행 → 주기적으로 3개의 하드 드라이브에 순환 저장
-
iPhone: Mac Air에 매일 백업 → Time Machine을 통해 SSD에 주기적 백업
-
오프사이트 보관: 매주 DVD-R, SSD 및 하드 드라이브를 외부 장소에 보관
-
아카이브 데이터란?
- 시간이 지남에 따라 데이터는 저장 계층 구조에서 아래로 내려감
-
아카이브 데이터 = 운영 저장소에서 유지 비용을 감당할 수 없는 데이터
- 아카이브 저장 시스템의 주요 목표는 비용 절감이며, 접근 속도 지연을 감수함
아카이브 저장 매체의 현실
- 언론에서 '영원히 보관 가능한 저장소'에 대한 과장이 많음
- 연구에서 나온 새로운 저장 기술이 시장에서 대규모로 사용될 가능성은 낮음
- 아카이브 전용 매체는 시장 수요가 낮아 상업적으로 성공하기 어려움
- 예: LTO 테이프는 전체 저장 매체 시장의 1% 미만을 차지
- 2023년 OD-3 (1TB 광 디스크) 가 시장 부족으로 취소됨
저장 매체의 도입 시기 문제
- 새로운 저장 기술이 시장에 도입되기까지 시간이 오래 걸림
-
HAMR 하드 드라이브: 연구 시작 후 26년이 지난 후 도입됨
-
실리카 및 DNA 저장소: 수십 년 연구 중이지만 상용화까지는 최소 5년 이상 필요
저장 매체의 경제성 문제
- 저장 매체 자체보다 저장 시스템 인프라 비용이 훨씬 중요함
- 테이프, 디스크 등 저장 매체 비용은 전체 비용에서 비중이 낮음
- 데이터 센터 규모에서 운영해야 비용이 절감됨
- 아카이브 저장은 소규모로 운영 시 경제성이 떨어짐
클라우드 저장과 락인(Lock-in) 문제
- 클라우드 서비스의 아카이브 저장 비용은 장기적으로 매우 비쌈
-
Amazon Glacier: 장기 보관 시 비용 절감 가능하나, 데이터 복구 비용이 높음
- 저장 비용: $10,900/연간
- 복구 비용: $49,550 (1PB 기준)
- 총 비용: $60,950
- 락인 기간: 50.0개월
-
Google Archive: 높은 저장 및 복구 비용 → 장기 보관에 비효율적
- 저장 비용: $13,200/연간
- 복구 비용: $210,810 (1PB 기준)
- 총 비용: $224,510
- 락인 기간: 175.6개월
-
Microsoft Archive: 보관 비용은 낮으나 데이터 복구 비용이 높음
- 저장 비용: $22,000/연간
- 복구 비용: $40,100 (1PB 기준)
- 총 비용: $62,200
- 락인 기간: 20.0개월
-
락인 문제: 데이터 복구 비용이 높아 데이터 이동이 어려워짐
-
Amazon Glacier는 저장 비용이 가장 저렴하고 복구 비용도 상대적으로 낮음
Project Silica (마이크로소프트의 실리카 프로젝트)
-
실리카: 초고밀도 데이터 저장 매체
- 펨토초 레이저로 실리카 플래터에 데이터 저장
- 저장 밀도가 높고 물리적 안정성이 뛰어남
-
비용 문제: 펨토초 레이저 비용이 높음 → 대량 생산으로 가격 인하 기대
-
읽기/쓰기 분리 → 보안 강화 및 데이터 무결성 보장
-
읽기 속도 문제: 응답 시간 15시간 예상 → 대규모 시스템에서만 효율적
데이터 복구 문제
- 아카이브에서 중요한 것은 데이터 복구 가능성
- 마이크로소프트는 스발바르(Svalbard) 섬에 필름 기반 오픈 소스 코드 저장
-
재난 이후 복구 가능성은 낮음
- 원거리 및 악천후로 인해 접근 어려움
LOCKSS 시스템 (Lots Of Copies Keep Stuff Safe)
- 저비용 저장 매체에 다수의 복사본을 보관 → 데이터 안전성 강화
- 백업 및 복구는 값비싼 시스템보다 복제본 다수를 통해 보장
- 비용 효율성이 중요 → 고가의 저장 매체보다 저렴한 저장 시스템 선호
결론
- 아카이브 저장의 핵심은 기술이 아니라 경제성
- 아카이브 전용 매체는 경제적으로 비효율적
- 클라우드 서비스는 높은 복구 비용 → 락인 문제 발생
-
대규모 데이터 센터에서 운영해야 장기 저장 비용 절감 가능
-
Project Silica는 아카이브 저장 기술 중 가장 유망하지만 상용화까지는 시간 필요