Bolt3D - 초고속 3D Scene 생성 모델

4 days ago 7

초고속 3D 장면 생성을 위한 잠재 확산 모델(latent diffusion model)
하나 이상의 입력 이미지를 통해 7초 이내에 고해상도의 3D 장면을 생성할 수 있음
대규모 멀티뷰 일관성 데이터셋을 구축해 훈련하였으며, 기존 3D 생성 모델 대비 최대 300배 빠름
기존 모델들은 최적화 과정이 필요하지만, Bolt3D는 피드포워드(feed-forward) 방식으로 즉각적인 장면 생성 가능

기존 모델의 한계 및 문제점

기존 2D 생성 모델은 고품질 이미지 생성 가능하나, 3D 장면 생성은 어려움
기존의 3D 모델은 다음과 같은 문제점이 있음:
- 복잡한 3D 데이터 구조 처리의 어려움
- 고품질의 실제 3D 장면 데이터 부족
- 높은 계산 비용 및 느린 처리 속도

Bolt3D의 주요 기법 및 구조

3D 표현 방식

3D Gaussian 표현 방식 사용:
- 3D Gaussian은 색상, 위치, 불투명도 및 공분산 행렬로 구성됨
- Splatter Image라는 픽셀 정렬된 이미지를 통해 3D Gaussian 렌더링 수행
- 보이지 않는 영역까지 보완 생성 가능

Bolt3D 생성 과정

**잠재 확산 모델(latent diffusion model)**을 통해 입력 이미지에서 3D 장면 추정
Geometry VAE를 통해 기하학적 정보를 잠재 공간에 인코딩
Gaussian Head가 3D Gaussian의 세부 속성(불투명도, 색상 등) 예측 및 보정
고해상도 3D 장면을 즉각적인 렌더링 수행

모델 구조

잠재 확산 모델은 2D 이미지 생성 모델에서 발전된 구조 채택
Geometry VAE는 3D 포인트맵과 카메라 포즈를 인코딩
Gaussian Head는 생성된 3D 장면의 세부 속성 보완

데이터셋 및 훈련

대규모 멀티뷰 데이터셋 구축:
- CO3D, MVImg, RealEstate10K, DL3DV-7K 포함
- 총 약 30만 개의 멀티뷰 장면으로 구성
- MASt3R 기법 사용하여 정확한 기하학적 데이터 확보
훈련 과정:
1. Geometry VAE: 256×256 → 512×512 해상도로 훈련
2. Gaussian Head: Splatter Image 생성 보정
3. Latent Diffusion Model: CAT3D 모델 기반에서 미세 조정

실험 결과 및 성능 비교

기존 모델과의 비교

Bolt3D는 기존의 Flash3D 및 DepthSplat 모델보다 성능이 우수함
Flash3D와의 성능 비교에서 Bolt3D는 PSNR 지표에서 약 3.6 포인트 높은 성능을 기록했으며, SSIM 및 LPIPS 지표에서도 개선됨
DepthSplat 모델과의 비교에서도 Bolt3D는 모든 성능 지표에서 우위를 보였음
특히 입력 이미지가 하나뿐인 상황에서 성능 향상 폭이 가장 컸음

최적화 기반 모델과의 성능 비교

Bolt3D는 기존의 CAT3D 등 최적화 기반 모델과 비교해 성능이 유사하거나 뛰어나면서도 300배 빠른 속도를 기록
CAT3D의 경우 장면을 생성하는 데 약 5분이 소요되지만, Bolt3D는 동일한 작업을 6.25초 만에 수행 가능
성능 지표 측면에서 CAT3D가 Bolt3D보다 다소 높은 PSNR 점수를 기록하였으나, 처리 속도 측면에서 Bolt3D가 압도적인 성능을 보임

모델 구조 및 아키텍처 개선 사항

Geometry VAE 개선

기하학적 정보 전용 VAE 사용 → 일반적인 이미지 VAE보다 정확도 증가
비선형 스케일링 및 깊이 매핑 적용 → 모델 성능 향상

Gaussian Head 개선

다중 뷰 정보 통합 및 보정
Cross-Attention 적용 → 보이지 않는 영역까지 보완 생성 가능

결론 및 시사점

Bolt3D는 기하학적 정보 학습 및 피드포워드 방식을 통해 고속 3D 장면 생성 가능
기존 모델 대비 성능 및 속도 모두 개선됨
다양한 응용 분야에서 즉각적인 고품질 3D 장면 생성 가능:
- 게임 개발
- 가상현실(VR) 및 증강현실(AR)
- 건축 및 디자인 시각화
초당 300배 향상된 처리 속도로 상용화 및 확장 가능성 높음

주요 성과 요약

7초 이내에 3D 장면 생성 가능
기존 모델 대비 300배 빠른 성능
고해상도 세부 묘사 및 일관성 확보
단일 및 다중 뷰에서 높은 성능
복잡하고 미완성된 장면에서도 자연스러운 보완 생성 가능

Read Entire Article