1930년의 13B 빈티지 언어 모델 Talkie

3 hours ago 2
  • 1931년 이전 영어 텍스트 260B 토큰만으로 학습한 13B 언어 모델로, 현대 세계를 모르는 상태의 대화와 일반화 실험을 가능하게 만듦
  • 지식 컷오프 이후 놀라움 증가와 오염이 적은 평가 환경을 바탕으로, 미래 사건 예측과 새 아이디어 도달 가능성을 더 직접적으로 시험할 수 있음
  • 같은 아키텍처의 현대 웹 학습 모델과 비교하면 표준 평가 성능은 대체로 낮지만, 시대착오적 질문을 걸러내면 격차가 줄고 언어 이해와 수리 과제에서는 비슷한 수준이 확인됨
  • 가장 큰 난제는 시간 누수와 데이터 품질로, 잘못된 날짜 메타데이터나 후대 편집 삽입이 컷오프를 깨뜨릴 수 있고 역사 문서 전사 품질도 성능에 크게 영향을 줌
  • 현대 instruction 데이터 없이 대화형 후속 학습을 따로 구축했고, 더 큰 모델 학습과 코퍼스 확장, 재-OCR, 누수 탐지 강화까지 이어지는 장기 연구 기반을 갖추고 있음

왜 빈티지 언어 모델인가

  • 빈티지 언어 모델은 과거 시점 이전의 텍스트만으로 학습해, 현대 세계를 모르는 상태의 모델과 대화하는 경험을 만들려는 접근임
  • 이런 모델은 흥미로운 대화 상대일 뿐 아니라, AI 일반 이해를 넓히는 연구 도구로도 쓰임
    • 1931년 이전 텍스트만 학습한 13B 모델에 New York Times의 “On This Day” 사건 설명 약 5,000개를 넣고, 텍스트 바이트당 비트로 놀라움을 측정함
    • 지식 컷오프 이후 놀라움이 커졌고, 특히 1950년대와 1960년대에 두드러진 뒤 평탄해짐
  • 미래 예측 평가는 모델 크기에 따라 성능이 어떻게 좋아지고, 더 긴 시간 간격에서 어떻게 약해지는지 측정하는 방향으로 이어짐
  • 새 아이디어 도달 가능성도 컷오프 뒤에 실제로 등장한 발명과 과학적 발견을 모델이 독립적으로 떠올릴 수 있는지로 시험할 수 있음
  • 오염 없는 평가 환경도 중요한 장점임
    • Contamination은 언어 모델 능력을 과대평가하게 만드는 지속적인 문제로 다뤄짐
    • 빈티지 모델은 구조적으로 오염이 적어, 사전학습 데이터 밖 일반화를 더 직접적으로 실험할 수 있게 만듦

Talkie 개요

  • talkie-1930-13b-base1931년 이전 영어 텍스트 260B 토큰으로 학습한 13B 언어 모델임
  • talkie-1930-13b-it는 이 베이스 모델을 대화형으로 바꾼 후속 체크포인트
    • 현대 채팅 대화록이나 현대 instruction-tuning 데이터에 의존하지 않도록 구성됨
  • 상단 위젯의 24시간 라이브 피드는 Claude Sonnet 4.6이 talkie-1930-13b-it를 프롬프트해 지식, 능력, 성향을 탐색하는 형태로 운영됨
  • Talkie는 본문 기준으로 가장 큰 빈티지 언어 모델로 소개됨
  • 다음 단계로 GPT-3 수준 모델을 학습 중이며, 여름 공개를 목표로 둠
  • 역사 텍스트 코퍼스를 1조 토큰 이상으로 키울 수 있다는 예비 추정도 함께 제시됨
    • 이 규모는 원래 ChatGPT와 비슷한 능력의 GPT-3.5 수준 모델을 만드는 데 충분할 수 있다고 적혀 있음

성능 평가와 일반화

  • 현대 쌍둥이 모델talkie-web-13b-base를 만들었고, 아키텍처는 같지만 FineWeb 기반 현대 웹 데이터로 학습시킴
  • 같은 FLOPs로 학습해도 Talkie는 표준 LM 평가에서 현대 모델보다 평균적으로 낮은 성능을 보임
    • 질문의 시대착오성을 보정한 뒤에도 이 차이는 남아 있음
    • 다만 핵심 언어 이해와 수리 능력 과제에서는 비슷한 성능이 확인됐다고 적혀 있음
  • Figure 4 기준으로 시대착오적 질문을 걸러내면 성능 격차가 대략 절반으로 줄어듦
  • 코드 일반화 실험도 수행됨
    • HumanEval로, 1931년 이전 텍스트 기반 빈티지 모델과 웹 기반 현대 모델의 쌍을 비교함
    • 무작위 Python 함수 예시를 문맥 내 학습용으로 주고, 100번 시도했을 때 최소 한 번 맞히는 문제 비율을 측정함
  • 빈티지 모델은 웹 데이터 학습 모델보다 크게 뒤처지지만, 규모가 커질수록 이 과제도 천천히 꾸준히 좋아지고 있음
  • 현재 맞는 해답은 매우 단순한 한 줄 프로그램 또는 문맥 내 예시의 작은 변형에 머묾
    • 회전 암호 인코딩 함수를 주었을 때 디코딩 함수를 구현한 예가 포함됨
    • 덧셈을 뺄셈으로 바꾸는 한 글자 수정 수준이지만, 역함수에 대한 이해를 시사하는 신호로 해석됨

데이터 수집과 학습 난제

  • 수백억이 아니라 수천억 단위의 1931년 이전 영어 토큰을 수집했다고 밝힘
  • 데이터는 책, 신문, 정기 간행물, 과학 저널, 특허, 판례를 포함함
  • 1930년 말을 컷오프로 잡은 이유는, 미국에서 이 시점이 저작물이 퍼블릭 도메인에 들어가는 기준이기 때문임
  • 이번 버전은 주로 영어 텍스트로 제한함
    • 데이터 파이프라인 검증에는 원문 문서에 대한 깊은 친숙함이 필요하고, 개발팀이 영어 원어민이기 때문이라고 적혀 있음
  • 다국어 확장은 높은 우선순위로 제시됨
    • 코퍼스 크기를 늘리고, 포함되는 관점의 다양성도 넓히는 목적을 함께 둠
  • 시간 누수

    • 가장 중요한 목표는 지식 컷오프 이후 데이터가 학습 코퍼스로 새어 들어가지 않게 막는 일
    • 누수는 날짜 메타데이터가 잘못된 현대 문서, 또는 오래된 문서 안에 나중에 삽입된 편집자 서문과 각주 같은 형태로 생길 수 있음
    • Talkie-1930에서는 문서 단위 n-gram 기반 시대착오 분류기로 사전학습 코퍼스를 필터링함
    • 이 필터링은 완전하지 않았음
      • 초기 7B 버전은 Roosevelt 대통령 재임과 New Deal 입법을 분명히 알고 있었음
      • 13B 버전도 2차 세계대전과 전후 질서 일부, 즉 United Nations와 독일 분할 관련 세부를 알고 있음
    • 이후 버전에서는 더 고급 분류기를 활용한 누수 탐지와 필터링 기법을 개발 중임
  • 데이터 품질

    • 1930년에는 디지털 출판이 없어서, 데이터셋의 모든 텍스트를 물리적 원본에서 전사해야 했음
    • 이 과정은 원래 디지털로 생성된 텍스트에는 없는 종류의 노이즈를 도입함
    • 고전적인 OCR 시스템은 단순한 레이아웃과 깨끗한 스캔을 제외하면 역사 문서를 잘 처리하지 못함
    • 현대 VLM 기반 OCR은 더 정확하지만, 코퍼스 안에 현대 사실을 환각으로 끼워 넣어 실험을 망칠 수 있다고 적혀 있음
    • 통제 실험에서, 기존 OCR로 전사한 1931년 이전 텍스트로 LM을 학습하면 같은 컴퓨트 대비 사람 전사본 성능의 30% 만 달성함
    • 단순한 regex 정제를 적용하면 70% 까지 회복되지만, 여전히 큰 차이가 남음
    • 이 격차를 줄이기 위해 빈티지 OCR 시스템으로 Talkie 코퍼스를 다시 전사할 계획임
  • 빈티지 후속 학습

    • 바로 쓸 수 있는 포스트트레이닝 데이터 부족도 큰 문제임
    • 일반적인 instruction-response 쌍으로 미세조정하면 시대착오적 지식, 문체, 챗 어시스턴트 기대치가 그대로 들어감
    • 이를 피하려고 포스트트레이닝 파이프라인을 처음부터 새로 구축
    • 먼저 예절서, 편지 작성 안내서, 요리책, 사전, 백과사전, 시집과 우화집처럼 규칙적 구조의 역사 텍스트에서 instruction-response 쌍을 생성해 단순 채팅 포맷으로 미세조정함
    • 다음으로 문서 요약, 직접 정보 요청 응답, 다중 턴 대화 이어가기 같은 과제를 덮는 합성 프롬프트를 만들고, Claude Sonnet 4.6을 심판으로 둔 online direct preference optimization을 수행함
    • 별도 평가 세트에서 심판의 평균 instruction-following 평점은 5점 만점 중 2.0에서 3.4로 상승
    • 마지막으로 Claude Opus 4.6과 Talkie 사이의 rejection-sampled 다중 턴 합성 대화를 이용해 한 차례 더 supervised fine-tuning을 수행함
    • AI 피드백 기반 강화학습은 필연적으로 현대적 영향을 남긴다고 적혀 있음
      • 7B 버전 Talkie는 RL 뒤에 listicle 말투로 말하기도 했음
    • 규모를 키우면 빈티지 베이스 모델 자체를 심판으로 써서 시대에 맞는 완전 부트스트랩 포스트트레이닝을 구현하길 기대함

향후 확장 계획

  • 영어 코퍼스 확대와 영어 외 언어로의 확장을 함께 추진함
  • 새로운 OCR 시스템으로 가능한 한 많은 1931년 이전 텍스트 재-OCR을 진행할 계획임
  • 새로운 시대착오 분류 기법으로 누수 탐지 파이프라인 강화를 추진함
  • 역사학자와 협업해 빈티지 포스트트레이닝 파이프라인을 확장하고 정교화할 계획임
    • 역사적으로 정확한 페르소나를 구성하는 방법론도 포함됨

활용과 협업 제안

  • GitHub: 프로젝트 코드와 연구 협업 창구
  • Hugging Face: 모델 체크포인트 공개 위치
  • 💬 Chat: Talkie 대화 인터페이스
  • hello@talkie-lm.com: 협업 연락처
  • 역사 텍스트를 가진 연구자와 기관과의 협업을 원하며, OCR 적용을 통한 접근성 향상도 포함함
  • 자금이나 컴퓨트 지원에도 열려 있으며, 해당 분야의 다른 팀과 연결할 수도 있다고 적혀 있음
  • 인문학 연구자와는 빈티지 언어 모델과 이를 학습시키는 데이터·인프라 활용성을 함께 논의할 수 있다고 밝힘
  • AI 연구자와는 빈티지 언어 모델의 학습과 연구 협업을 원함
  • 예술가와 작가에게도 실험 도구로 활용할 수 있음

주의 사항

  • Talkie는 학습한 텍스트의 문화와 가치관을 반영함
  • 그 결과 사용자에게 불쾌감을 줄 수 있는 출력을 생성할 수 있음
Read Entire Article