VibeVoice - 오픈소스 프론티어 음성 AI 모델

10 hours ago 2

Microsoft가 공개한 오픈소스 음성 AI 모델 패밀리로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함
ASR은 Open AI Whisper와 비슷하지만 화자 분리(speaker diarization) 기능이 모델 자체에 내장
핵심 혁신은 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상
next-token diffusion 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성
VibeVoice-ASR (7B): 최대 60분 오디오를 단일 패스로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력
- 사용자 맞춤 핫워드 기능으로 도메인 특화 용어의 인식 정확도 향상
- 50개 이상 언어를 네이티브로 지원하는 다국어 모델
- 2026년 3월부터 Hugging Face Transformers에 통합
- vLLM 추론 지원으로 더 빠른 인퍼런스 가능 및 파인튜닝 코드 공개
VibeVoice-TTS (1.5B): 최대 90분 대화형 음성을 단일 패스로 생성, 한 번에 최대 4명 화자 지원
- 감정적 뉘앙스와 대화 역학을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원
- 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 TTS 코드가 리포지토리에서 제거됨
VibeVoice-Realtime (0.5B): 최대 10분, 첫 음성 출력까지 약 300밀리초 만에 가능한 실시간 TTS
- 0.5B 파라미터의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적
- 스트리밍 텍스트 입력 지원
- 2025년 12월 3일 공개, 이후 12월 16일에 9개 언어(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 11개의 영어 스타일 음성이 실험적으로 추가
- Apple Silicon(MPS) 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선
베이스 모델(Qwen2.5 1.5B) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요
MIT 라이선스

Read Entire Article

VibeVoice - 오픈소스 프론티어 음성 AI 모델

Related

1930년의 13B 빈티지 언어 모델 Talkie

Show GN: Nemotron-Personas-Korea 기반 한국인 페르소나 탐색기

dirac-run/dirac

Show GN: yukari-rubi : 일본어 웹사이트에 히라가나를 달아주는 Firefox 확장기능

Show GN: Portal-Tunnel: 로컬에서 퍼블릭으로

중국, Meta의 AI 스타트업 Manus 인수 차단

Show GN: Windows 작업표시줄에 Claude/Codex 한도 표시하는 TrafficMonitor ...

Show GN: AWS 비용 계산기 - 한국 DevOps 팀을 위한 KRW+VAT 포함 비용 계산기

Tips

Trending

Popular

Awesome Design.MD - 유명 웹사이트 디자인 시스템을 내 사이트에 적용하기

CX Lessons from ANZ Voices | SAP Spotlight on ANZ Tech

How Südzucker Group Fuels Digitalization with SAP Signavio &...

Claude Code 소스 유출로 탄생한 OpenClaude — GPT-4o, Gemini, Ollama 등...

Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

전처 살해 후 시신 유기 시도한 60대 구속…法 "도망 염려" [종합]

A Cocktail of Intelligent Solutions From SAP Goes Live at Ca...

How SAP S/4HANA Has Improved Financial Close

Vision33 Receives SAP Partner Awards North America 2026 for ...

4 Common ERP Myths, Dispelled | Vision33