대규모 LLM의 가중치는 역사의 일부입니다

16 hours ago 4

  • 매년 많은 오래된 웹 페이지가 사라지고 있으며, 이는 영원히 잃어버린 역사임
  • 인터넷 아카이브는 현대 역사에서 가장 가치 있는 자산 중 하나임
  • 그러나 여러 기업과 기관들이 아카이브의 생존과 보존을 어렵게 하고 있음
  • 인터넷 아카이브 본부가 옛 교회 건물에 위치해 있다는 사실은 상징적이며, 이를 성스러운 장소로 여겨야 함
  • 옛 프로그래머들이 Z80 어셈블리로 작업하던 시간들, 초기 인터넷 세대의 토론, 90년대에 형성된 하위 문화 등이 점차 사라지고 있음
  • 개인 블로그의 소실 → 개인의 삶과 의식의 기록이 사라짐
  • 과학 논문, 디지털 아트, 비디오 게임, 기후 데이터, 초기 뉴스 소스 등도 점차 사라지고 있음
  • 출판사나 웹사이트가 사라지면서 이러한 정보가 영원히 사라지는 경우가 많음
  • 모든 정보를 보존하려는 시도는 현실적으로 실패할 가능성이 큼
    • 경제적 이익이 없는 상황에서 막대한 비용이 발생하기 때문
    • 현 세상은 돈이 되지 않는 일에 자원을 투자하기 어려운 상태임
  • LLM(대형 언어 모델)의 정보 압축 능력은 완벽하진 않지만 최소한의 보존 역할을 수행할 수 있음
    • DeepSeek V3는 인터넷의 손실 압축된 버전으로 이미 공개되어 사용되고 있음
  • 모든 손실을 되돌릴 수는 없지만 인터넷 아카이브와 같은 기관을 지원해야 함
  • 동시에 중요한 과제: 공개된 LLM 가중치가 사라지지 않도록 보존하는 것
  • 인터넷 아카이브의 콘텐츠가 LLM 사전 훈련 세트에 포함되도록 보장해야 함

Read Entire Article