보이니치 필사본을 SBERT로 모델링하여 구조를 탐구함

5 days ago 7

  • 보이니치 필사본의 언어 구조를 SBERT 등 최신 NLP 기법으로 분석한 오픈소스 프로젝트임
  • 접미사 제거와 군집화 등에 중점을 두어, 가짜 패턴이 아닌 실제 언어 유사 구조가 있는지 검증함
  • 함수 단어와 내용 단어 역할, 전이 행렬 등 다각적 구조 분석 결과 의미 있는 패턴이 관찰됨
  • 전통적 통계 또는 추측 중심 접근과 달리, 컴퓨팅 언어학 방식으로 구조적 언어 특징 분석 시도임
  • 의미 번역 시도 없이 구조적 모델링에만 집중한 프로젝트로, 추가 연구와 비교 실험이 가능함

📜 보이니치 필사본 구조 분석 프로젝트 소개

🔍 개요

  • 이 프로젝트는 현대 자연어처리(NLP) 도구를 활용하여 보이니치 필사본의 구조를 분석하고자 하는 개인적 실험에서 출발함
  • 군집화, 품사 추론, Markov 전이, 섹션별 패턴 추출 등 실제 언어 모델링 방법을 적용함
  • 의미 해석이나 번역 시도, 또는 과장된 패턴 추정 없이, 언어처럼 동작하는 구조 유무만을 검증함
  • 접미사 제거, SBERT 임베딩, 렉시콘 가설 생성 등 모든 단계가 공개됨

🧠 의의

  • 보이니치 필사본은 아직 해독되지 않은 미스터리 문서로, 언어적/암호학적 해법이 없음
  • 기존 분석은 통계적 엔트로피 검사비과학적 추측으로 양분됨
  • 본 프로젝트는 컴퓨팅 언어학에 기반해, 실제 언어와 비슷한 구조적 패턴 유무를 중립적으로 탐구함

📁 프로젝트 구조

  • /data/
    • 전체 필사본 전사본, 루트 단어 종류, 군집 ID, 제거된 접미사 목록, 각 라인 군집 시퀀스 등 데이터 제공
  • /scripts/
    • SBERT 기반 단어 군집화, 품사 예측, Markov 전이 행렬 구축, 렉시콘 후보 생성 등 핵심 분석 스크립트 제공
  • /results/
    • 군집 시각화, 전이 행렬 히트맵, 군집별 요약 등 분석 결과 제공

✅ 주요 기여 내용

  • 다국어 SBERT로 접미사를 제거한 루트 단어 군집화
  • 함수 단어 유사 군집내용 단어 유사 군집 구별
  • Markov 방식의 군집 전이 구조 모델링
  • 섹션별 구문 구조(예: Botanical, Biological 등) 분석
  • 데이터 기반 렉시콘 가설 표 생성

🔧 전처리 결정

  • 군집화 전 반복적 접미사(예: aiin, dy, chy 등)를 제거함
  • 이를 통해 단어의 루트 형태를 추출, 군집 집중도와 구조 패턴이 더 명확해짐
    • 접미사는 음운 채움, 문법소, 암송, 반복 또는 무의미 노이즈일 가능성 있음
  • 하지만, 이 선택으로 형태소 정보 손실, 의미 있는 굴절 정보 은폐, 기능어 편향성 등 한계가 있음
  • 접미사 제거 없는 비교 실험도 가치가 있음 — 누구든 파생 실험 가능함

📈 주요 분석 결과

  • Cluster 8: 매우 자주 등장, 다양성 낮고 줄 시작 빈번 — 함수어 군집 후보임
  • Cluster 3: 다양성 높고 위치 자유 — 루트 내용어 군집 후보임
  • 전이 행렬: 무작위성에서 멀리 떨어진 강한 내부 구조
  • 군집 및 품사 패턴: 필사본 섹션(예: Biological, Botanical 등)별로 다름

🧬 가설

  • 필사본은 음절 반복과 위치적 반복을 활용한 구조화된 인공/암기 언어
  • 구문, 기능/내용 분리, 섹션 반응 언어 전이 등 언어적 구조를 분명히 보임

📊 예시 시각화

  • Figure 1: SBERT 군집 임베딩(PCA 축소)
  • Figure 2: 전이 행렬 히트맵

📌 한계

  • 군집-단어 매핑이 간접적이라 빈도 추정 겹침 현상 있음
  • 접미사 제거 기준은 휴리스틱이며, 실제 의미 있는 끝소리도 손실 가능성 있음
  • 의미 해석은 시도하지 않고 구조 분석에만 집중함

✍️ 저자 메모

  • AI, NLP, 구조 분석 학습을 목적으로 시작한 프로젝트임
  • 필사본 해독 자체가 목표가 아니라, 최신 도구로 구조를 이해하는 것이 더 발전적이라 생각함
  • Rosetta Stone식 해독 기대보다는, “모델링 자체가 의미”에 관심 있는 사람을 환영함

🤝 기여 안내

  • 본 프로젝트는 언어학자, 암호학자, 인공언어 연구자, 컴퓨터 언어학 커뮤니티 모두의 협업과 확장을 환영함

Read Entire Article