- 초고속 3D 장면 생성을 위한 잠재 확산 모델(latent diffusion model)
- 하나 이상의 입력 이미지를 통해 7초 이내에 고해상도의 3D 장면을 생성할 수 있음
- 대규모 멀티뷰 일관성 데이터셋을 구축해 훈련하였으며, 기존 3D 생성 모델 대비 최대 300배 빠름
- 기존 모델들은 최적화 과정이 필요하지만, Bolt3D는 피드포워드(feed-forward) 방식으로 즉각적인 장면 생성 가능
기존 모델의 한계 및 문제점
- 기존 2D 생성 모델은 고품질 이미지 생성 가능하나, 3D 장면 생성은 어려움
- 기존의 3D 모델은 다음과 같은 문제점이 있음:
- 복잡한 3D 데이터 구조 처리의 어려움
- 고품질의 실제 3D 장면 데이터 부족
- 높은 계산 비용 및 느린 처리 속도
Bolt3D의 주요 기법 및 구조
3D 표현 방식
-
3D Gaussian 표현 방식 사용:
- 3D Gaussian은 색상, 위치, 불투명도 및 공분산 행렬로 구성됨
-
Splatter Image라는 픽셀 정렬된 이미지를 통해 3D Gaussian 렌더링 수행
- 보이지 않는 영역까지 보완 생성 가능
Bolt3D 생성 과정
- **잠재 확산 모델(latent diffusion model)**을 통해 입력 이미지에서 3D 장면 추정
-
Geometry VAE를 통해 기하학적 정보를 잠재 공간에 인코딩
-
Gaussian Head가 3D Gaussian의 세부 속성(불투명도, 색상 등) 예측 및 보정
- 고해상도 3D 장면을 즉각적인 렌더링 수행
모델 구조
-
잠재 확산 모델은 2D 이미지 생성 모델에서 발전된 구조 채택
- Geometry VAE는 3D 포인트맵과 카메라 포즈를 인코딩
- Gaussian Head는 생성된 3D 장면의 세부 속성 보완
데이터셋 및 훈련
- 대규모 멀티뷰 데이터셋 구축:
-
CO3D, MVImg, RealEstate10K, DL3DV-7K 포함
-
총 약 30만 개의 멀티뷰 장면으로 구성
-
MASt3R 기법 사용하여 정확한 기하학적 데이터 확보
- 훈련 과정:
- Geometry VAE: 256×256 → 512×512 해상도로 훈련
- Gaussian Head: Splatter Image 생성 보정
- Latent Diffusion Model: CAT3D 모델 기반에서 미세 조정
실험 결과 및 성능 비교
기존 모델과의 비교
- Bolt3D는 기존의 Flash3D 및 DepthSplat 모델보다 성능이 우수함
- Flash3D와의 성능 비교에서 Bolt3D는 PSNR 지표에서 약 3.6 포인트 높은 성능을 기록했으며, SSIM 및 LPIPS 지표에서도 개선됨
- DepthSplat 모델과의 비교에서도 Bolt3D는 모든 성능 지표에서 우위를 보였음
- 특히 입력 이미지가 하나뿐인 상황에서 성능 향상 폭이 가장 컸음
최적화 기반 모델과의 성능 비교
- Bolt3D는 기존의 CAT3D 등 최적화 기반 모델과 비교해 성능이 유사하거나 뛰어나면서도 300배 빠른 속도를 기록
- CAT3D의 경우 장면을 생성하는 데 약 5분이 소요되지만, Bolt3D는 동일한 작업을 6.25초 만에 수행 가능
- 성능 지표 측면에서 CAT3D가 Bolt3D보다 다소 높은 PSNR 점수를 기록하였으나, 처리 속도 측면에서 Bolt3D가 압도적인 성능을 보임
모델 구조 및 아키텍처 개선 사항
Geometry VAE 개선
-
기하학적 정보 전용 VAE 사용 → 일반적인 이미지 VAE보다 정확도 증가
- 비선형 스케일링 및 깊이 매핑 적용 → 모델 성능 향상
Gaussian Head 개선
- 다중 뷰 정보 통합 및 보정
-
Cross-Attention 적용 → 보이지 않는 영역까지 보완 생성 가능
결론 및 시사점
- Bolt3D는 기하학적 정보 학습 및 피드포워드 방식을 통해 고속 3D 장면 생성 가능
- 기존 모델 대비 성능 및 속도 모두 개선됨
- 다양한 응용 분야에서 즉각적인 고품질 3D 장면 생성 가능:
- 게임 개발
- 가상현실(VR) 및 증강현실(AR)
- 건축 및 디자인 시각화
-
초당 300배 향상된 처리 속도로 상용화 및 확장 가능성 높음
주요 성과 요약
-
7초 이내에 3D 장면 생성 가능
-
기존 모델 대비 300배 빠른 성능
- 고해상도 세부 묘사 및 일관성 확보
-
단일 및 다중 뷰에서 높은 성능
- 복잡하고 미완성된 장면에서도 자연스러운 보완 생성 가능