- 텍스트와 이미지 기반의 멀티샷 비디오 생성 모델로, 의미 파악과 프롬프트 해석 능력에서 기존 모델보다 더 정확하고 유연한 성능을 보임
- 1080p의 높은 해상도와 더불어 부드러운 장면 전환, 풍부한 디테일, 영화적 느낌의 결과물을 제공
-
세밀한 파인튜닝과 비디오 특화 RLHF 보상 메커니즘으로 전반적 성능 향상
- 텍스트 묘사나 이미지를 토대로 하여, 요구 조건을 만족하는 동적이고 몰입감 있는 비주얼 컨텐츠 생산이 가능
-
효율적인 아키텍처와 새로운 학습 패러다임으로 멀티샷 생성 및 텍스트-비디오/이미지-비디오 작업 모두 지원
Seedance 1.0 소개
- 최근 디퓨전 모델 대혁신으로 인해 비디오 생성 기술이 빠르게 발전하는 중임
- 하지만 대부분의 기존 모델은 명령어(프롬프트) 수행, 동작 자연스러움, 시각적 품질 사이에서 균형을 잡는 데 여전히 어려움이 있음
-
Seedance 1.0은 이 모델은 아래 주요 기술적 개선점을 적용한 비디오 생성 기반 모델임
- (i) 정밀한 비디오 캡션을 덧붙인 다중 소스 데이터 수집으로 여러 시나리오에서 포괄적 학습 가능
- (ii) 효율적인 아키텍처와 학습 패러다임으로, 멀티샷 생성과 텍스트→비디오, 이미지→비디오 작업을 동시에 지원
- (iii) 세밀하게 최적화된 후처리: 정교한 감독 파인튜닝과 비디오 특화 RLHF, 다차원 보상 메커니즘으로 전반적 성능 대폭 개선
- (iv) 모델 가속화: 다단계 증류 및 시스템 차원 최적화를 통해 10배 추론 속도 향상
-
NVIDIA-L20 GPU 기준 41.4초 만에 5초 1080p 비디오 생성 가능
- 최신 비디오 생성 모델과 비교할 때, 공간-시간적 유연성, 구조적 안정성, 복잡 다중 상황에서의 지시 수행, 멀티샷 및 스토리텔링 일관성이 뛰어남