MUVERA - 멀티 벡터 검색을 단일 벡터 수준으로 빠르게

6 days ago 7

단일 벡터 임베딩 기반 검색은 빠르고 효율적이지만, 최근 ColBERT 등 멀티 벡터 모델은 각 토큰별 다수 벡터로 더 풍부한 의미와 정확도를 제공함
멀티 벡터 방식은 Chamfer similarity 등 복잡한 유사도 계산으로 인해 연산량·검색 비용이 크게 증가, 대규모 실시간 검색에 장애로 작용함
구글 연구팀이 제안한 MUVERA는 멀티 벡터 정보를 고정 길이 벡터(FDE, Fixed Dimensional Encoding)로 압축해, 단일 벡터 기반 MIPS(내적 최대 검색)로 초고속 검색 후 재정렬함
이 방식은 데이터에 독립적이며 이론적 근거(Chamfer similarity 근사 오차 보장) 를 제공, 기존 PLAID 대비 90% 이상 지연 감소와 10% 이상 recall 향상 달성
FDE는 압축까지 지원(32배 메모리 절감), 오픈소스 구현체와 논문도 공개되어 검색·추천·NLP 실서비스 도입에 적합함

임베딩 모델과 정보 검색의 발전

딥러닝 기반 임베딩 모델은 사용자 쿼리(예: “에베레스트 산 높이”)에 대해 방대한 데이터셋(문서, 이미지, 영상 등)에서 연관 정보를 빠르게 찾기 위한 핵심 도구임
각 데이터포인트를 단일 벡터 임베딩으로 변환함으로써 의미상 유사한 데이터들이 수치적으로 비슷한 벡터 구조를 갖게 설계됨
벡터 간 내적 유사도 계산을 활용하여, 최대 내적 검색(MIPS) 알고리듬으로 빠른 검색 성능을 제공함
하지만 최근 ColBERT 등 멀티 벡터 모델은 더 높은 검색 정확도와 복잡한 관계 파악 능력으로 주목받음

멀티 벡터 모델은 각 데이터포인트를 다수 개의 임베딩 벡터 집합으로 표현함
Chamfer 유사도 측정법과 같은 복합 유사도 함수를 사용하여, 기존 단일 벡터로는 잡아내지 못했던 정보 포함 및 관계를 정확히 포착함
이 방식 덕분에 더 정확한 정보 검색과 관련성 높은 문서 추천이 가능해짐
단점으로는 임베딩 수 증가와 유사도 계산 복잡성으로 인해, 검색에 요구되는 컴퓨팅 자원이 상당히 커짐
- 토큰별 벡터 수 증가 → 연산량·메모리 대폭 증가
- 비선형(행렬곱) 연산이 필수 → 단일 벡터 기반 서브리니어(초고속) 검색 불가
- 대규모 서비스 적용 시 비용·지연이 급증

논문 “MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings”에서는 이 효율성 문제를 극복할 새로운 알고리듬을 제안함
MUVERA는 멀티 벡터 정보를 단일 FDE 벡터로 변환, 기존 MIPS 인덱스/서버를 그대로 활용해 고속 후보 검색 가능
1. FDE 생성: 쿼리·문서의 멀티 벡터 집합을 고정 길이 벡터(FDE)로 변환(데이터 독립적 매핑)
2. MIPS 검색: 모든 문서의 FDE를 MIPS 인덱스에 저장, 쿼리 FDE로 후보를 초고속 탐색
3. 정확도 보장 재정렬: 후보 문서에만 Chamfer similarity 등 원래 멀티 벡터 연산을 적용, 정밀 재정렬로 최종 결과 제공
FDE는 데이터셋과 무관하게 적용 가능, 스트리밍 등 동적 환경에도 유리함

BEIR 벤치마크 등 다양한 대규모 IR 데이터셋에서 MUVERA 성능 검증
- 기존 PLAID 등 대비 평균 10% 더 높은 recall 달성
- 90% 이상 검색 지연(latency) 감소
- 동일 recall 시, FDE 기반 후보 문서 수를 기존 대비 5~20배까지 줄임
- Product Quantization 등 추가 압축 기법과도 궁합 우수(메모리 32배 절감)
멀티 벡터 검색의 실용성 대폭 개선, 대규모 검색·추천·NLP 응용에 적합