SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

3 weeks ago 18

NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함
Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함
학습은 64개 H100에서 15일 걸렸고, 증류 변형은 RTX 5090 1개에서 NVFP4로 60초 720p 클립을 34초에 디노이즈함
공개 영상 약 21.3만 개와 미터 단위 6-DoF 포즈 감독을 사용해 정밀한 카메라 경로 추종을 지원함
1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 액션 추종 정확도가 높고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

모델과 공개 자료

SANA-WM은 26억 파라미터 오픈소스 월드 모델이며, 하나의 이미지와 카메라 궤적을 입력받아 720p, 1분 길이의 제어 가능한 비디오를 생성함
NVIDIA 소속 Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie가 참여함
Paper, Code, Models soon 자료가 제공됨
논문 제목은 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer임

핵심 설계와 생성 파이프라인

긴 롤아웃을 위한 하이브리드 구조
- Hybrid Linear Diffusion Transformer는 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 분 단위 롤아웃에서 세계 일관성을 유지함
- 효율성 비교에서 recurrent 변형은 메모리와 지연시간 측면에서 더 작게 확장되지만, all-softmax 방식은 60초 생성에서 OOM이 발생함
정밀한 카메라 제어
- SANA-WM은 6-DoF 카메라 궤적을 입력으로 받아 메트릭 카메라 경로를 따르는 영상을 생성함
- 거친 전역 포즈 브랜치와 세밀한 픽셀 정렬 기하 브랜치가 함께 작동해 카메라 경로 추종 충실도를 높임
- 공개 영상에서 미터 단위의 정확한 6-DoF 카메라 포즈를 추출해 시공간적으로 일관된 고품질 액션 레이블을 만듦
2단계 품질 향상
- 1단계 출력에는 17B 장편 비디오 refiner가 적용되어 시퀀스 전반의 품질과 일관성이 개선됨
- refiner는 긴 롤아웃 백본 위에서 텍스처, 움직임, 후반 구간의 품질을 더 선명하게 만듦

학습과 추론 효율

학습은 64개 H100에서 15일 걸렸고, 학습 데이터에는 약 21.3만 개 공개 영상 클립과 미터 단위 포즈 감독이 사용됨
추론에서는 단일 H100으로 1분 720p 영상 생성이 가능함
증류 변형 모델은 RTX 5090 1개에서 NVFP4 양자화를 사용해 60초 720p 클립을 34초에 디노이즈함
SANA-WM은 LingBot-World, HY-WorldPlay 같은 대규모 산업 기준선과 비슷한 시각 품질을 보이면서 효율을 개선함
1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 더 높은 액션 추종 정확도를 보였고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

데모에서 보이는 생성 특성

1분 월드 데모
- 다수의 1분 예시는 1인칭 시점의 고정된 관찰점을 유지하면서 카메라 이동이나 관찰자 행동 없이 환경 자체의 움직임을 생성함
- Video 68: 눈 덮인 알프스 길, 절벽, 동굴 입구, 고드름, 바람에 휜 소나무, 주황색 재킷의 등산가가 배치되고 눈 입자·안개·가지 흔들림·가루눈 흐름이 생성됨
- Video 72: 열린 교차로에서 파란 숲, 폭풍 구름 아래 폐허 탑, 햇빛 마을로 갈라지는 세 갈래 경로가 생성됨
- Video 81: 폐쇄된 지하 SF 연구시설의 T자 교차로와 물에 잠긴 왼쪽 복도, 증기로 찬 오른쪽 복도, 어둠으로 열린 원형 금속문이 나타남
20초 월드 데모
- Video 82: 산속 버려진 오두막 내부, 손그림 지도, 녹슨 열쇠, 따뜻한 랜턴, 눈 숲길 너머 금빛 동굴을 구성하고 불씨 연기·랜턴 불꽃·문틈 눈보라가 움직임
- Video 85: 정글 유적의 봉인된 원형문, 녹색 기호, 작은 탐사 로봇이 배치되고 덩굴·곤충·나비·물웅덩이·문 기호가 맥동함
- Video 92: 물속 고대 사원의 석재 통로, 산호 기둥, 초록빛 균열, 작은 구형 잠수 로봇이 배치되고 물고기·거품·입자·해초·caustics가 더해짐
같은 첫 프레임과 반복 프롬프트
- Video 100, Video 101, Video 102: 같은 소금 평원 프롬프트에서 스포츠카, 거친 소금 껍질, 낮은 햇빛을 유지하면서 소금 먼지, 구름 이동, 열 아지랑이, 바닥의 바람 선을 생성함
- Video 103, Video 104, Video 105: 얕은 반사 물, 진흙 징검돌, 보라색 숲, 반쯤 잠긴 추락 우주선, 우주복을 입은 astronaut, 작은 외계 생물이 같은 프롬프트 변형으로 나타남
- Video 119, Video 120, Video 121: 열대 해변 일출 장면에서 파도, 야자 잎, 새, 구름 움직임을 고정 시점으로 생성함

Refiner 효과 예시

정글 협곡
- Video 124와 Video 125는 Stage 1 Refined 예시로, 거대한 정글 협곡 내부를 1인칭 고정 시점으로 구성함
- 폭포 뒤에 희미하게 보이는 고대 석조 사원, 접힌 종이비행기, 형형색색의 새, 떠다니는 잎, 젖은 석벽, 얽힌 덩굴, 물방울이 들어감
- 폭포, 안개, 새의 날갯짓, 낙엽, 반짝이는 물방울, 기류에 떨리는 종이비행기가 자율적으로 움직임
절벽에 새겨진 고대 문
- Video 126와 Video 127는 숲의 높은 지대에 있는 절벽 속 고대 문을 나타냄
- 이끼 낀 길에서 반쯤 열린 문까지 석단이 이어지고, 조각 기둥, 수호상, 담쟁이 덮인 벽, 왼쪽의 산악 계곡, 입구 근처의 망토 여행자가 배치됨
- 늦은 오후의 따뜻한 햇빛과 문에서 새어 나오는 청록색 빛이 결합되고, 잎, 새, 덩굴, 포털 빛이 독립적으로 움직임
물에 잠긴 고대 사원
- Video 130와 Video 131는 Stage 1 및 refined 결과를 나란히 제시함
- 산호가 붙은 기둥 사이로 석조 보행로가 이어지고, 갈라진 의식용 벽의 중앙 균열에서 밝은 녹색 빛이 새어 나와 바닥의 발광 기호와 정렬됨
- 작은 구형 잠수 로봇이 앞에 떠 있으며, 물고기, 기포, 입자, 해초, caustics, 녹색 기호가 자율적으로 움직임

데모 제작 메모

페이지의 모든 영상은 SANA-WM 양방향 변형으로 생성된 뒤, 2단계 장기 영상 refiner를 거침
갤러리의 모든 데모 영상 첫 프레임 이미지는 OpenAI GPT Image 2와 Google Nano Banana Pro로 생성됐고, SANA-WM이 정지 이미지를 1분 길이 영상으로 애니메이션화함

Read Entire Article