Lightricks LTX-2 - 오픈소스 최초 오디오·비디오 통합 생성 모델

6 days ago 7

📝 TL;DR

  • LTX-2 = 오픈소스 멀티모달 비디오 생성 모델의 새 기준
  • 4K+오디오를 소비자급 하드웨어에서 실시간 생성
  • 11월 말 모델 가중치+코드+벤치마크 전체 공개
  • Lightricks 제작, arXiv 논문 공개됨

🔑 Key Highlights

  • 오픈소스 최초의 오디오-비디오 동기화 생성 모델

    • Sora 2, Movie Gen은 상용/비공개, LTX-2는 11월 말 완전 오픈소스 공개
    • 4K 50fps, 최대 10초 영상 + 동기화된 오디오 생성
  • 실시간보다 빠른 생성 속도

    • H100: 768x512 해상도, 5초 24fps 영상을 단 2초에 생성
    • 기존 모델 대비 연산 비용 50% 절감
    • 소비자급 GPU(RTX 4090 등)에서도 실행 가능
  • 하이브리드 DiT 아키텍처의 혁신

    • Video-VAE: 1:192 압축률 (32x32x8 다운스케일링)
    • VAE 디코더가 최종 디노이징까지 수행 → 별도 업샘플링 없이 세밀한 디테일 유지
    • 멀티 GPU 추론 스택으로 실시간 성능 구현
  • 세밀한 크리에이티브 제어

    • 멀티 키프레임 컨디셔닝, 3D 카메라 로직
    • LoRA 파인튜닝으로 브랜드 스타일/IP 일관성 유지
    • Fast/Pro/Ultra 3가지 모드로 속도-품질 조절
  • 즉시 사용 가능한 생태계

    • Fal.ai, Replicate, ComfyUI 통합 완료
    • API Playground에서 테스트 가능
    • 편집 도구, VFX 스택, 게임 엔진 직접 통합 지원

Read Entire Article