보이니치 필사본을 SBERT로 모델링하여 구조를 탐구함

5 days ago 7

보이니치 필사본의 언어 구조를 SBERT 등 최신 NLP 기법으로 분석한 오픈소스 프로젝트임
접미사 제거와 군집화 등에 중점을 두어, 가짜 패턴이 아닌 실제 언어 유사 구조가 있는지 검증함
함수 단어와 내용 단어 역할, 전이 행렬 등 다각적 구조 분석 결과 의미 있는 패턴이 관찰됨
전통적 통계 또는 추측 중심 접근과 달리, 컴퓨팅 언어학 방식으로 구조적 언어 특징 분석 시도임
의미 번역 시도 없이 구조적 모델링에만 집중한 프로젝트로, 추가 연구와 비교 실험이 가능함

📜 보이니치 필사본 구조 분석 프로젝트 소개

🔍 개요

이 프로젝트는 현대 자연어처리(NLP) 도구를 활용하여 보이니치 필사본의 구조를 분석하고자 하는 개인적 실험에서 출발함
군집화, 품사 추론, Markov 전이, 섹션별 패턴 추출 등 실제 언어 모델링 방법을 적용함
의미 해석이나 번역 시도, 또는 과장된 패턴 추정 없이, 언어처럼 동작하는 구조 유무만을 검증함
접미사 제거, SBERT 임베딩, 렉시콘 가설 생성 등 모든 단계가 공개됨

🧠 의의

보이니치 필사본은 아직 해독되지 않은 미스터리 문서로, 언어적/암호학적 해법이 없음
기존 분석은 통계적 엔트로피 검사와 비과학적 추측으로 양분됨
본 프로젝트는 컴퓨팅 언어학에 기반해, 실제 언어와 비슷한 구조적 패턴 유무를 중립적으로 탐구함

📁 프로젝트 구조

/data/
- 전체 필사본 전사본, 루트 단어 종류, 군집 ID, 제거된 접미사 목록, 각 라인 군집 시퀀스 등 데이터 제공
/scripts/
- SBERT 기반 단어 군집화, 품사 예측, Markov 전이 행렬 구축, 렉시콘 후보 생성 등 핵심 분석 스크립트 제공
/results/
- 군집 시각화, 전이 행렬 히트맵, 군집별 요약 등 분석 결과 제공

✅ 주요 기여 내용

다국어 SBERT로 접미사를 제거한 루트 단어 군집화
함수 단어 유사 군집과 내용 단어 유사 군집 구별
Markov 방식의 군집 전이 구조 모델링
섹션별 구문 구조(예: Botanical, Biological 등) 분석
데이터 기반 렉시콘 가설 표 생성

🔧 전처리 결정

군집화 전 반복적 접미사(예: aiin, dy, chy 등)를 제거함
이를 통해 단어의 루트 형태를 추출, 군집 집중도와 구조 패턴이 더 명확해짐
- 접미사는 음운 채움, 문법소, 암송, 반복 또는 무의미 노이즈일 가능성 있음
하지만, 이 선택으로 형태소 정보 손실, 의미 있는 굴절 정보 은폐, 기능어 편향성 등 한계가 있음
접미사 제거 없는 비교 실험도 가치가 있음 — 누구든 파생 실험 가능함

📈 주요 분석 결과

Cluster 8: 매우 자주 등장, 다양성 낮고 줄 시작 빈번 — 함수어 군집 후보임
Cluster 3: 다양성 높고 위치 자유 — 루트 내용어 군집 후보임
전이 행렬: 무작위성에서 멀리 떨어진 강한 내부 구조
군집 및 품사 패턴: 필사본 섹션(예: Biological, Botanical 등)별로 다름

🧬 가설

필사본은 음절 반복과 위치적 반복을 활용한 구조화된 인공/암기 언어임
구문, 기능/내용 분리, 섹션 반응 언어 전이 등 언어적 구조를 분명히 보임

📊 예시 시각화

Figure 1: SBERT 군집 임베딩(PCA 축소)
Figure 2: 전이 행렬 히트맵

📌 한계

군집-단어 매핑이 간접적이라 빈도 추정 겹침 현상 있음
접미사 제거 기준은 휴리스틱이며, 실제 의미 있는 끝소리도 손실 가능성 있음
의미 해석은 시도하지 않고 구조 분석에만 집중함

✍️ 저자 메모

AI, NLP, 구조 분석 학습을 목적으로 시작한 프로젝트임
필사본 해독 자체가 목표가 아니라, 최신 도구로 구조를 이해하는 것이 더 발전적이라 생각함
Rosetta Stone식 해독 기대보다는, “모델링 자체가 의미”에 관심 있는 사람을 환영함

🤝 기여 안내

본 프로젝트는 언어학자, 암호학자, 인공언어 연구자, 컴퓨터 언어학 커뮤니티 모두의 협업과 확장을 환영함

Read Entire Article