-
보이니치 필사본의 언어 구조를 SBERT 등 최신 NLP 기법으로 분석한 오픈소스 프로젝트임
-
접미사 제거와 군집화 등에 중점을 두어, 가짜 패턴이 아닌 실제 언어 유사 구조가 있는지 검증함
-
함수 단어와 내용 단어 역할, 전이 행렬 등 다각적 구조 분석 결과 의미 있는 패턴이 관찰됨
-
전통적 통계 또는 추측 중심 접근과 달리, 컴퓨팅 언어학 방식으로 구조적 언어 특징 분석 시도임
- 의미 번역 시도 없이 구조적 모델링에만 집중한 프로젝트로, 추가 연구와 비교 실험이 가능함
📜 보이니치 필사본 구조 분석 프로젝트 소개
🔍 개요
- 이 프로젝트는 현대 자연어처리(NLP) 도구를 활용하여 보이니치 필사본의 구조를 분석하고자 하는 개인적 실험에서 출발함
-
군집화, 품사 추론, Markov 전이, 섹션별 패턴 추출 등 실제 언어 모델링 방법을 적용함
- 의미 해석이나 번역 시도, 또는 과장된 패턴 추정 없이, 언어처럼 동작하는 구조 유무만을 검증함
-
접미사 제거, SBERT 임베딩, 렉시콘 가설 생성 등 모든 단계가 공개됨
🧠 의의
-
보이니치 필사본은 아직 해독되지 않은 미스터리 문서로, 언어적/암호학적 해법이 없음
- 기존 분석은 통계적 엔트로피 검사와 비과학적 추측으로 양분됨
- 본 프로젝트는 컴퓨팅 언어학에 기반해, 실제 언어와 비슷한 구조적 패턴 유무를 중립적으로 탐구함
📁 프로젝트 구조
-
/data/
- 전체 필사본 전사본, 루트 단어 종류, 군집 ID, 제거된 접미사 목록, 각 라인 군집 시퀀스 등 데이터 제공
-
/scripts/
-
SBERT 기반 단어 군집화, 품사 예측, Markov 전이 행렬 구축, 렉시콘 후보 생성 등 핵심 분석 스크립트 제공
-
/results/
-
군집 시각화, 전이 행렬 히트맵, 군집별 요약 등 분석 결과 제공
✅ 주요 기여 내용
-
다국어 SBERT로 접미사를 제거한 루트 단어 군집화
-
함수 단어 유사 군집과 내용 단어 유사 군집 구별
-
Markov 방식의 군집 전이 구조 모델링
-
섹션별 구문 구조(예: Botanical, Biological 등) 분석
-
데이터 기반 렉시콘 가설 표 생성
🔧 전처리 결정
-
군집화 전 반복적 접미사(예: aiin, dy, chy 등)를 제거함
- 이를 통해 단어의 루트 형태를 추출, 군집 집중도와 구조 패턴이 더 명확해짐
- 접미사는 음운 채움, 문법소, 암송, 반복 또는 무의미 노이즈일 가능성 있음
- 하지만, 이 선택으로 형태소 정보 손실, 의미 있는 굴절 정보 은폐, 기능어 편향성 등 한계가 있음
- 접미사 제거 없는 비교 실험도 가치가 있음 — 누구든 파생 실험 가능함
📈 주요 분석 결과
-
Cluster 8: 매우 자주 등장, 다양성 낮고 줄 시작 빈번 — 함수어 군집 후보임
-
Cluster 3: 다양성 높고 위치 자유 — 루트 내용어 군집 후보임
-
전이 행렬: 무작위성에서 멀리 떨어진 강한 내부 구조
-
군집 및 품사 패턴: 필사본 섹션(예: Biological, Botanical 등)별로 다름
🧬 가설
- 필사본은 음절 반복과 위치적 반복을 활용한 구조화된 인공/암기 언어임
-
구문, 기능/내용 분리, 섹션 반응 언어 전이 등 언어적 구조를 분명히 보임
📊 예시 시각화
-
Figure 1: SBERT 군집 임베딩(PCA 축소)
-
Figure 2: 전이 행렬 히트맵
📌 한계
-
군집-단어 매핑이 간접적이라 빈도 추정 겹침 현상 있음
-
접미사 제거 기준은 휴리스틱이며, 실제 의미 있는 끝소리도 손실 가능성 있음
-
의미 해석은 시도하지 않고 구조 분석에만 집중함
✍️ 저자 메모
-
AI, NLP, 구조 분석 학습을 목적으로 시작한 프로젝트임
- 필사본 해독 자체가 목표가 아니라, 최신 도구로 구조를 이해하는 것이 더 발전적이라 생각함
-
Rosetta Stone식 해독 기대보다는, “모델링 자체가 의미”에 관심 있는 사람을 환영함
🤝 기여 안내
- 본 프로젝트는 언어학자, 암호학자, 인공언어 연구자, 컴퓨터 언어학 커뮤니티 모두의 협업과 확장을 환영함