SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

1 day ago 4
  • NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함
  • Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함
  • 학습은 64개 H100에서 15일 걸렸고, 증류 변형은 RTX 5090 1개에서 NVFP4로 60초 720p 클립을 34초에 디노이즈함
  • 공개 영상 약 21.3만 개와 미터 단위 6-DoF 포즈 감독을 사용해 정밀한 카메라 경로 추종을 지원함
  • 1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 액션 추종 정확도가 높고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

모델과 공개 자료

  • SANA-WM은 26억 파라미터 오픈소스 월드 모델이며, 하나의 이미지와 카메라 궤적을 입력받아 720p, 1분 길이의 제어 가능한 비디오를 생성함
  • NVIDIA 소속 Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie가 참여함
  • Paper, Code, Models soon 자료가 제공됨
  • 논문 제목은 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer임

핵심 설계와 생성 파이프라인

  • 긴 롤아웃을 위한 하이브리드 구조

    • Hybrid Linear Diffusion Transformer는 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 분 단위 롤아웃에서 세계 일관성을 유지함
    • 효율성 비교에서 recurrent 변형은 메모리와 지연시간 측면에서 더 작게 확장되지만, all-softmax 방식은 60초 생성에서 OOM이 발생함
  • 정밀한 카메라 제어

    • SANA-WM은 6-DoF 카메라 궤적을 입력으로 받아 메트릭 카메라 경로를 따르는 영상을 생성함
    • 거친 전역 포즈 브랜치와 세밀한 픽셀 정렬 기하 브랜치가 함께 작동해 카메라 경로 추종 충실도를 높임
    • 공개 영상에서 미터 단위의 정확한 6-DoF 카메라 포즈를 추출해 시공간적으로 일관된 고품질 액션 레이블을 만듦
  • 2단계 품질 향상

    • 1단계 출력에는 17B 장편 비디오 refiner가 적용되어 시퀀스 전반의 품질과 일관성이 개선됨
    • refiner는 긴 롤아웃 백본 위에서 텍스처, 움직임, 후반 구간의 품질을 더 선명하게 만듦

학습과 추론 효율

  • 학습은 64개 H100에서 15일 걸렸고, 학습 데이터에는 약 21.3만 개 공개 영상 클립과 미터 단위 포즈 감독이 사용됨
  • 추론에서는 단일 H100으로 1분 720p 영상 생성이 가능함
  • 증류 변형 모델은 RTX 5090 1개에서 NVFP4 양자화를 사용해 60초 720p 클립을 34초에 디노이즈함
  • SANA-WM은 LingBot-World, HY-WorldPlay 같은 대규모 산업 기준선과 비슷한 시각 품질을 보이면서 효율을 개선함
  • 1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 더 높은 액션 추종 정확도를 보였고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

데모에서 보이는 생성 특성

  • 1분 월드 데모

    • 다수의 1분 예시는 1인칭 시점의 고정된 관찰점을 유지하면서 카메라 이동이나 관찰자 행동 없이 환경 자체의 움직임을 생성함
    • Video 68: 눈 덮인 알프스 길, 절벽, 동굴 입구, 고드름, 바람에 휜 소나무, 주황색 재킷의 등산가가 배치되고 눈 입자·안개·가지 흔들림·가루눈 흐름이 생성됨
    • Video 72: 열린 교차로에서 파란 숲, 폭풍 구름 아래 폐허 탑, 햇빛 마을로 갈라지는 세 갈래 경로가 생성됨
    • Video 81: 폐쇄된 지하 SF 연구시설의 T자 교차로와 물에 잠긴 왼쪽 복도, 증기로 찬 오른쪽 복도, 어둠으로 열린 원형 금속문이 나타남
  • 20초 월드 데모

    • Video 82: 산속 버려진 오두막 내부, 손그림 지도, 녹슨 열쇠, 따뜻한 랜턴, 눈 숲길 너머 금빛 동굴을 구성하고 불씨 연기·랜턴 불꽃·문틈 눈보라가 움직임
    • Video 85: 정글 유적의 봉인된 원형문, 녹색 기호, 작은 탐사 로봇이 배치되고 덩굴·곤충·나비·물웅덩이·문 기호가 맥동함
    • Video 92: 물속 고대 사원의 석재 통로, 산호 기둥, 초록빛 균열, 작은 구형 잠수 로봇이 배치되고 물고기·거품·입자·해초·caustics가 더해짐
  • 같은 첫 프레임과 반복 프롬프트

    • Video 100, Video 101, Video 102: 같은 소금 평원 프롬프트에서 스포츠카, 거친 소금 껍질, 낮은 햇빛을 유지하면서 소금 먼지, 구름 이동, 열 아지랑이, 바닥의 바람 선을 생성함
    • Video 103, Video 104, Video 105: 얕은 반사 물, 진흙 징검돌, 보라색 숲, 반쯤 잠긴 추락 우주선, 우주복을 입은 astronaut, 작은 외계 생물이 같은 프롬프트 변형으로 나타남
    • Video 119, Video 120, Video 121: 열대 해변 일출 장면에서 파도, 야자 잎, 새, 구름 움직임을 고정 시점으로 생성함

Refiner 효과 예시

  • 정글 협곡

    • Video 124Video 125Stage 1 Refined 예시로, 거대한 정글 협곡 내부를 1인칭 고정 시점으로 구성함
    • 폭포 뒤에 희미하게 보이는 고대 석조 사원, 접힌 종이비행기, 형형색색의 새, 떠다니는 잎, 젖은 석벽, 얽힌 덩굴, 물방울이 들어감
    • 폭포, 안개, 새의 날갯짓, 낙엽, 반짝이는 물방울, 기류에 떨리는 종이비행기가 자율적으로 움직임
  • 절벽에 새겨진 고대 문

    • Video 126Video 127는 숲의 높은 지대에 있는 절벽 속 고대 문을 나타냄
    • 이끼 낀 길에서 반쯤 열린 문까지 석단이 이어지고, 조각 기둥, 수호상, 담쟁이 덮인 벽, 왼쪽의 산악 계곡, 입구 근처의 망토 여행자가 배치됨
    • 늦은 오후의 따뜻한 햇빛과 문에서 새어 나오는 청록색 빛이 결합되고, 잎, 새, 덩굴, 포털 빛이 독립적으로 움직임
  • 물에 잠긴 고대 사원

    • Video 130Video 131Stage 1 및 refined 결과를 나란히 제시함
    • 산호가 붙은 기둥 사이로 석조 보행로가 이어지고, 갈라진 의식용 벽의 중앙 균열에서 밝은 녹색 빛이 새어 나와 바닥의 발광 기호와 정렬됨
    • 작은 구형 잠수 로봇이 앞에 떠 있으며, 물고기, 기포, 입자, 해초, caustics, 녹색 기호가 자율적으로 움직임

데모 제작 메모

  • 페이지의 모든 영상은 SANA-WM 양방향 변형으로 생성된 뒤, 2단계 장기 영상 refiner를 거침
  • 갤러리의 모든 데모 영상 첫 프레임 이미지는 OpenAI GPT Image 2Google Nano Banana Pro로 생성됐고, SANA-WM이 정지 이미지를 1분 길이 영상으로 애니메이션화함
Read Entire Article