VibeVoice - 오픈소스 프론티어 음성 AI 모델
10 hours ago
2
- Microsoft가 공개한 오픈소스 음성 AI 모델 패밀리로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함
- ASR은 Open AI Whisper와 비슷하지만 화자 분리(speaker diarization) 기능이 모델 자체에 내장
- 핵심 혁신은 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상
- next-token diffusion 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성
- VibeVoice-ASR (7B): 최대 60분 오디오를 단일 패스로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력
- 사용자 맞춤 핫워드 기능으로 도메인 특화 용어의 인식 정확도 향상
- 50개 이상 언어를 네이티브로 지원하는 다국어 모델
- 2026년 3월부터 Hugging Face Transformers에 통합
- vLLM 추론 지원으로 더 빠른 인퍼런스 가능 및 파인튜닝 코드 공개
- VibeVoice-TTS (1.5B): 최대 90분 대화형 음성을 단일 패스로 생성, 한 번에 최대 4명 화자 지원
- 감정적 뉘앙스와 대화 역학을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원
- 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 TTS 코드가 리포지토리에서 제거됨
- VibeVoice-Realtime (0.5B): 최대 10분, 첫 음성 출력까지 약 300밀리초 만에 가능한 실시간 TTS
- 0.5B 파라미터의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적
- 스트리밍 텍스트 입력 지원
- 2025년 12월 3일 공개, 이후 12월 16일에 9개 언어(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 11개의 영어 스타일 음성이 실험적으로 추가
- Apple Silicon(MPS) 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선
- 베이스 모델(Qwen2.5 1.5B) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요
- MIT 라이선스
-
Homepage
-
Tech blog
- VibeVoice - 오픈소스 프론티어 음성 AI 모델