Seedance 1.0 - Bytedance의 멀티샷 비디오 생성모델

3 weeks ago 21

텍스트와 이미지 기반의 멀티샷 비디오 생성 모델로, 의미 파악과 프롬프트 해석 능력에서 기존 모델보다 더 정확하고 유연한 성능을 보임
1080p의 높은 해상도와 더불어 부드러운 장면 전환, 풍부한 디테일, 영화적 느낌의 결과물을 제공
세밀한 파인튜닝과 비디오 특화 RLHF 보상 메커니즘으로 전반적 성능 향상
텍스트 묘사나 이미지를 토대로 하여, 요구 조건을 만족하는 동적이고 몰입감 있는 비주얼 컨텐츠 생산이 가능
효율적인 아키텍처와 새로운 학습 패러다임으로 멀티샷 생성 및 텍스트-비디오/이미지-비디오 작업 모두 지원

Seedance 1.0 소개

최근 디퓨전 모델 대혁신으로 인해 비디오 생성 기술이 빠르게 발전하는 중임
하지만 대부분의 기존 모델은 명령어(프롬프트) 수행, 동작 자연스러움, 시각적 품질 사이에서 균형을 잡는 데 여전히 어려움이 있음
Seedance 1.0은 이 모델은 아래 주요 기술적 개선점을 적용한 비디오 생성 기반 모델임
- (i) 정밀한 비디오 캡션을 덧붙인 다중 소스 데이터 수집으로 여러 시나리오에서 포괄적 학습 가능
- (ii) 효율적인 아키텍처와 학습 패러다임으로, 멀티샷 생성과 텍스트→비디오, 이미지→비디오 작업을 동시에 지원
- (iii) 세밀하게 최적화된 후처리: 정교한 감독 파인튜닝과 비디오 특화 RLHF, 다차원 보상 메커니즘으로 전반적 성능 대폭 개선
- (iv) 모델 가속화: 다단계 증류 및 시스템 차원 최적화를 통해 10배 추론 속도 향상
NVIDIA-L20 GPU 기준 41.4초 만에 5초 1080p 비디오 생성 가능
최신 비디오 생성 모델과 비교할 때, 공간-시간적 유연성, 구조적 안정성, 복잡 다중 상황에서의 지시 수행, 멀티샷 및 스토리텔링 일관성이 뛰어남