SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델
1 day ago
4
- NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함
- Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함
- 학습은 64개 H100에서 15일 걸렸고, 증류 변형은 RTX 5090 1개에서 NVFP4로 60초 720p 클립을 34초에 디노이즈함
- 공개 영상 약 21.3만 개와 미터 단위 6-DoF 포즈 감독을 사용해 정밀한 카메라 경로 추종을 지원함
- 1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 액션 추종 정확도가 높고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함
모델과 공개 자료
- SANA-WM은 26억 파라미터 오픈소스 월드 모델이며, 하나의 이미지와 카메라 궤적을 입력받아 720p, 1분 길이의 제어 가능한 비디오를 생성함
- NVIDIA 소속 Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie가 참여함
- Paper, Code, Models soon 자료가 제공됨
- 논문 제목은 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer임
핵심 설계와 생성 파이프라인
-
긴 롤아웃을 위한 하이브리드 구조
- Hybrid Linear Diffusion Transformer는 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 분 단위 롤아웃에서 세계 일관성을 유지함
- 효율성 비교에서 recurrent 변형은 메모리와 지연시간 측면에서 더 작게 확장되지만, all-softmax 방식은 60초 생성에서 OOM이 발생함
-
정밀한 카메라 제어
- SANA-WM은 6-DoF 카메라 궤적을 입력으로 받아 메트릭 카메라 경로를 따르는 영상을 생성함
- 거친 전역 포즈 브랜치와 세밀한 픽셀 정렬 기하 브랜치가 함께 작동해 카메라 경로 추종 충실도를 높임
- 공개 영상에서 미터 단위의 정확한 6-DoF 카메라 포즈를 추출해 시공간적으로 일관된 고품질 액션 레이블을 만듦
-
2단계 품질 향상
- 1단계 출력에는 17B 장편 비디오 refiner가 적용되어 시퀀스 전반의 품질과 일관성이 개선됨
- refiner는 긴 롤아웃 백본 위에서 텍스처, 움직임, 후반 구간의 품질을 더 선명하게 만듦
학습과 추론 효율
- 학습은 64개 H100에서 15일 걸렸고, 학습 데이터에는 약 21.3만 개 공개 영상 클립과 미터 단위 포즈 감독이 사용됨
- 추론에서는 단일 H100으로 1분 720p 영상 생성이 가능함
- 증류 변형 모델은 RTX 5090 1개에서 NVFP4 양자화를 사용해 60초 720p 클립을 34초에 디노이즈함
- SANA-WM은 LingBot-World, HY-WorldPlay 같은 대규모 산업 기준선과 비슷한 시각 품질을 보이면서 효율을 개선함
- 1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 더 높은 액션 추종 정확도를 보였고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함
데모에서 보이는 생성 특성
-
1분 월드 데모
- 다수의 1분 예시는 1인칭 시점의 고정된 관찰점을 유지하면서 카메라 이동이나 관찰자 행동 없이 환경 자체의 움직임을 생성함
- Video 68: 눈 덮인 알프스 길, 절벽, 동굴 입구, 고드름, 바람에 휜 소나무, 주황색 재킷의 등산가가 배치되고 눈 입자·안개·가지 흔들림·가루눈 흐름이 생성됨
- Video 72: 열린 교차로에서 파란 숲, 폭풍 구름 아래 폐허 탑, 햇빛 마을로 갈라지는 세 갈래 경로가 생성됨
- Video 81: 폐쇄된 지하 SF 연구시설의 T자 교차로와 물에 잠긴 왼쪽 복도, 증기로 찬 오른쪽 복도, 어둠으로 열린 원형 금속문이 나타남
-
20초 월드 데모
- Video 82: 산속 버려진 오두막 내부, 손그림 지도, 녹슨 열쇠, 따뜻한 랜턴, 눈 숲길 너머 금빛 동굴을 구성하고 불씨 연기·랜턴 불꽃·문틈 눈보라가 움직임
- Video 85: 정글 유적의 봉인된 원형문, 녹색 기호, 작은 탐사 로봇이 배치되고 덩굴·곤충·나비·물웅덩이·문 기호가 맥동함
- Video 92: 물속 고대 사원의 석재 통로, 산호 기둥, 초록빛 균열, 작은 구형 잠수 로봇이 배치되고 물고기·거품·입자·해초·caustics가 더해짐
-
같은 첫 프레임과 반복 프롬프트
- Video 100, Video 101, Video 102: 같은 소금 평원 프롬프트에서 스포츠카, 거친 소금 껍질, 낮은 햇빛을 유지하면서 소금 먼지, 구름 이동, 열 아지랑이, 바닥의 바람 선을 생성함
- Video 103, Video 104, Video 105: 얕은 반사 물, 진흙 징검돌, 보라색 숲, 반쯤 잠긴 추락 우주선, 우주복을 입은 astronaut, 작은 외계 생물이 같은 프롬프트 변형으로 나타남
- Video 119, Video 120, Video 121: 열대 해변 일출 장면에서 파도, 야자 잎, 새, 구름 움직임을 고정 시점으로 생성함
Refiner 효과 예시
-
정글 협곡
- Video 124와 Video 125는 Stage 1 Refined 예시로, 거대한 정글 협곡 내부를 1인칭 고정 시점으로 구성함
- 폭포 뒤에 희미하게 보이는 고대 석조 사원, 접힌 종이비행기, 형형색색의 새, 떠다니는 잎, 젖은 석벽, 얽힌 덩굴, 물방울이 들어감
- 폭포, 안개, 새의 날갯짓, 낙엽, 반짝이는 물방울, 기류에 떨리는 종이비행기가 자율적으로 움직임
-
절벽에 새겨진 고대 문
- Video 126와 Video 127는 숲의 높은 지대에 있는 절벽 속 고대 문을 나타냄
- 이끼 낀 길에서 반쯤 열린 문까지 석단이 이어지고, 조각 기둥, 수호상, 담쟁이 덮인 벽, 왼쪽의 산악 계곡, 입구 근처의 망토 여행자가 배치됨
- 늦은 오후의 따뜻한 햇빛과 문에서 새어 나오는 청록색 빛이 결합되고, 잎, 새, 덩굴, 포털 빛이 독립적으로 움직임
-
물에 잠긴 고대 사원
- Video 130와 Video 131는 Stage 1 및 refined 결과를 나란히 제시함
- 산호가 붙은 기둥 사이로 석조 보행로가 이어지고, 갈라진 의식용 벽의 중앙 균열에서 밝은 녹색 빛이 새어 나와 바닥의 발광 기호와 정렬됨
- 작은 구형 잠수 로봇이 앞에 떠 있으며, 물고기, 기포, 입자, 해초, caustics, 녹색 기호가 자율적으로 움직임
데모 제작 메모
- 페이지의 모든 영상은 SANA-WM 양방향 변형으로 생성된 뒤, 2단계 장기 영상 refiner를 거침
- 갤러리의 모든 데모 영상 첫 프레임 이미지는 OpenAI GPT Image 2와 Google Nano Banana Pro로 생성됐고, SANA-WM이 정지 이미지를 1분 길이 영상으로 애니메이션화함
-
Homepage
-
Tech blog
- SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델