1930년의 13B 빈티지 언어 모델 Talkie

3 hours ago 2

1931년 이전 영어 텍스트 260B 토큰만으로 학습한 13B 언어 모델로, 현대 세계를 모르는 상태의 대화와 일반화 실험을 가능하게 만듦
지식 컷오프 이후 놀라움 증가와 오염이 적은 평가 환경을 바탕으로, 미래 사건 예측과 새 아이디어 도달 가능성을 더 직접적으로 시험할 수 있음
같은 아키텍처의 현대 웹 학습 모델과 비교하면 표준 평가 성능은 대체로 낮지만, 시대착오적 질문을 걸러내면 격차가 줄고 언어 이해와 수리 과제에서는 비슷한 수준이 확인됨
가장 큰 난제는 시간 누수와 데이터 품질로, 잘못된 날짜 메타데이터나 후대 편집 삽입이 컷오프를 깨뜨릴 수 있고 역사 문서 전사 품질도 성능에 크게 영향을 줌
현대 instruction 데이터 없이 대화형 후속 학습을 따로 구축했고, 더 큰 모델 학습과 코퍼스 확장, 재-OCR, 누수 탐지 강화까지 이어지는 장기 연구 기반을 갖추고 있음

왜 빈티지 언어 모델인가

빈티지 언어 모델은 과거 시점 이전의 텍스트만으로 학습해, 현대 세계를 모르는 상태의 모델과 대화하는 경험을 만들려는 접근임
이런 모델은 흥미로운 대화 상대일 뿐 아니라, AI 일반 이해를 넓히는 연구 도구로도 쓰임
- 1931년 이전 텍스트만 학습한 13B 모델에 New York Times의 “On This Day” 사건 설명 약 5,000개를 넣고, 텍스트 바이트당 비트로 놀라움을 측정함
- 지식 컷오프 이후 놀라움이 커졌고, 특히 1950년대와 1960년대에 두드러진 뒤 평탄해짐
미래 예측 평가는 모델 크기에 따라 성능이 어떻게 좋아지고, 더 긴 시간 간격에서 어떻게 약해지는지 측정하는 방향으로 이어짐
새 아이디어 도달 가능성도 컷오프 뒤에 실제로 등장한 발명과 과학적 발견을 모델이 독립적으로 떠올릴 수 있는지로 시험할 수 있음
오염 없는 평가 환경도 중요한 장점임
- Contamination은 언어 모델 능력을 과대평가하게 만드는 지속적인 문제로 다뤄짐
- 빈티지 모델은 구조적으로 오염이 적어, 사전학습 데이터 밖 일반화를 더 직접적으로 실험할 수 있게 만듦

Talkie 개요

talkie-1930-13b-base는 1931년 이전 영어 텍스트 260B 토큰으로 학습한 13B 언어 모델임
talkie-1930-13b-it는 이 베이스 모델을 대화형으로 바꾼 후속 체크포인트임
- 현대 채팅 대화록이나 현대 instruction-tuning 데이터에 의존하지 않도록 구성됨
상단 위젯의 24시간 라이브 피드는 Claude Sonnet 4.6이 talkie-1930-13b-it를 프롬프트해 지식, 능력, 성향을 탐색하는 형태로 운영됨
Talkie는 본문 기준으로 가장 큰 빈티지 언어 모델로 소개됨
다음 단계로 GPT-3 수준 모델을 학습 중이며, 여름 공개를 목표로 둠
역사 텍스트 코퍼스를 1조 토큰 이상으로 키울 수 있다는 예비 추정도 함께 제시됨
- 이 규모는 원래 ChatGPT와 비슷한 능력의 GPT-3.5 수준 모델을 만드는 데 충분할 수 있다고 적혀 있음

성능 평가와 일반화

현대 쌍둥이 모델로 talkie-web-13b-base를 만들었고, 아키텍처는 같지만 FineWeb 기반 현대 웹 데이터로 학습시킴
같은 FLOPs로 학습해도 Talkie는 표준 LM 평가에서 현대 모델보다 평균적으로 낮은 성능을 보임
- 질문의 시대착오성을 보정한 뒤에도 이 차이는 남아 있음
- 다만 핵심 언어 이해와 수리 능력 과제에서는 비슷한 성능이 확인됐다고 적혀 있음
Figure 4 기준으로 시대착오적 질문을 걸러내면 성능 격차가 대략 절반으로 줄어듦
코드 일반화 실험도 수행됨
- HumanEval로, 1931년 이전 텍스트 기반 빈티지 모델과 웹 기반 현대 모델의 쌍을 비교함
- 무작위 Python 함수 예시를 문맥 내 학습용으로 주고, 100번 시도했을 때 최소 한 번 맞히는 문제 비율을 측정함
빈티지 모델은 웹 데이터 학습 모델보다 크게 뒤처지지만, 규모가 커질수록 이 과제도 천천히 꾸준히 좋아지고 있음
현재 맞는 해답은 매우 단순한 한 줄 프로그램 또는 문맥 내 예시의 작은 변형에 머묾
- 회전 암호 인코딩 함수를 주었을 때 디코딩 함수를 구현한 예가 포함됨
- 덧셈을 뺄셈으로 바꾸는 한 글자 수정 수준이지만, 역함수에 대한 이해를 시사하는 신호로 해석됨

데이터 수집과 학습 난제

수백억이 아니라 수천억 단위의 1931년 이전 영어 토큰을 수집했다고 밝힘
데이터는 책, 신문, 정기 간행물, 과학 저널, 특허, 판례를 포함함
1930년 말을 컷오프로 잡은 이유는, 미국에서 이 시점이 저작물이 퍼블릭 도메인에 들어가는 기준이기 때문임
이번 버전은 주로 영어 텍스트로 제한함
- 데이터 파이프라인 검증에는 원문 문서에 대한 깊은 친숙함이 필요하고, 개발팀이 영어 원어민이기 때문이라고 적혀 있음
다국어 확장은 높은 우선순위로 제시됨
- 코퍼스 크기를 늘리고, 포함되는 관점의 다양성도 넓히는 목적을 함께 둠
시간 누수
- 가장 중요한 목표는 지식 컷오프 이후 데이터가 학습 코퍼스로 새어 들어가지 않게 막는 일임
- 누수는 날짜 메타데이터가 잘못된 현대 문서, 또는 오래된 문서 안에 나중에 삽입된 편집자 서문과 각주 같은 형태로 생길 수 있음
- Talkie-1930에서는 문서 단위 n-gram 기반 시대착오 분류기로 사전학습 코퍼스를 필터링함
- 이 필터링은 완전하지 않았음
  - 초기 7B 버전은 Roosevelt 대통령 재임과 New Deal 입법을 분명히 알고 있었음
  - 13B 버전도 2차 세계대전과 전후 질서 일부, 즉 United Nations와 독일 분할 관련 세부를 알고 있음
- 이후 버전에서는 더 고급 분류기를 활용한 누수 탐지와 필터링 기법을 개발 중임
데이터 품질
- 1930년에는 디지털 출판이 없어서, 데이터셋의 모든 텍스트를 물리적 원본에서 전사해야 했음
- 이 과정은 원래 디지털로 생성된 텍스트에는 없는 종류의 노이즈를 도입함
- 고전적인 OCR 시스템은 단순한 레이아웃과 깨끗한 스캔을 제외하면 역사 문서를 잘 처리하지 못함
- 현대 VLM 기반 OCR은 더 정확하지만, 코퍼스 안에 현대 사실을 환각으로 끼워 넣어 실험을 망칠 수 있다고 적혀 있음
- 통제 실험에서, 기존 OCR로 전사한 1931년 이전 텍스트로 LM을 학습하면 같은 컴퓨트 대비 사람 전사본 성능의 30% 만 달성함
- 단순한 regex 정제를 적용하면 70% 까지 회복되지만, 여전히 큰 차이가 남음
- 이 격차를 줄이기 위해 빈티지 OCR 시스템으로 Talkie 코퍼스를 다시 전사할 계획임
빈티지 후속 학습
- 바로 쓸 수 있는 포스트트레이닝 데이터 부족도 큰 문제임
- 일반적인 instruction-response 쌍으로 미세조정하면 시대착오적 지식, 문체, 챗 어시스턴트 기대치가 그대로 들어감
- 이를 피하려고 포스트트레이닝 파이프라인을 처음부터 새로 구축함
- 먼저 예절서, 편지 작성 안내서, 요리책, 사전, 백과사전, 시집과 우화집처럼 규칙적 구조의 역사 텍스트에서 instruction-response 쌍을 생성해 단순 채팅 포맷으로 미세조정함
- 다음으로 문서 요약, 직접 정보 요청 응답, 다중 턴 대화 이어가기 같은 과제를 덮는 합성 프롬프트를 만들고, Claude Sonnet 4.6을 심판으로 둔 online direct preference optimization을 수행함
- 별도 평가 세트에서 심판의 평균 instruction-following 평점은 5점 만점 중 2.0에서 3.4로 상승함
- 마지막으로 Claude Opus 4.6과 Talkie 사이의 rejection-sampled 다중 턴 합성 대화를 이용해 한 차례 더 supervised fine-tuning을 수행함
- AI 피드백 기반 강화학습은 필연적으로 현대적 영향을 남긴다고 적혀 있음
  - 7B 버전 Talkie는 RL 뒤에 listicle 말투로 말하기도 했음
- 규모를 키우면 빈티지 베이스 모델 자체를 심판으로 써서 시대에 맞는 완전 부트스트랩 포스트트레이닝을 구현하길 기대함