Show GN: Voice-Pro: 이재용 부회장 환영사를 더빙하며 알게된 동시통역의 어려움

2 days ago 6

2022년 5월 20일, 평택 삼성전자 반도체 공장에서 이재용 부회장이 영어로 환영사를 했죠. 그런데 OBS의 동시통역은 처참했습니다. 고등학생도 울고 갈 수준에, 엉뚱한 해석까지 곁들여 청중을 당혹스럽게 했습니다. 그래서 Voice-Pro로 제대로 된 더빙을 만들어봤습니다. 결과는 여기: 유튜브 영상.

Voice-Pro는 유튜브 동영상 다운로드부터 음성 인식, 번역, 음성 합성(더빙)까지 모든 과정을 통합 지원하는 강력한 도구입니다. 최신 기술로 누구나 손쉽게 고품질 음성 작업을 할 수 있습니다 🚀

✨ 주요 기능과 지원 기술

유튜브 동영상 다운로드
  • yt-dlp: 강화된 오디오 다운로드, Gradio 5.x로 편리한 웹 인터페이스 제공.
음성 인식
  • OpenAI/Whisper: 높은 정확도의 음성-텍스트 변환.
  • Faster-Whisper: 속도 최적화된 Whisper 변형.
  • Whisper-Timestamped: 타임스탬프 기반 구간별 텍스트 추출.
  • m-bain/whisperX: pyannote로 VAD와 스피커 다이어리제이션 지원, faster-whisper 기반.
번역
  • deep-translator: 무료로 안정적인 번역.
  • Microsoft Azure Translator (유료): 고품질 번역 옵션. 100개 이상 언어 지원.
음성 합성(더빙) 및 복제
  • Edge-TTS: 빠르고 자연스러운 텍스트-음성 변환.
  • Microsoft Azure TTS (유료): 풍부한 음성 옵션과 고품질 합성.
  • kokoro: 개성 있는 음성 합성.
  • F5-TTS: 최소 샘플로 자연스러운 제로샷 음성 복제.
  • CosyVoice2: 50+ 인플루언서 음성 활용 가능한 최고의 복제 기술.

🔧 AI Cover는 잠시 안녕, 더 나은 미래로

기존 AI Cover 기능은 fairseq의 Windows 설치 문제와 충돌로 제외됐습니다. 대신 m-bain/whisperX를 도입해 더 강력한 음성 처리를 지원합니다. AI Cover는 별도 앱으로 업그레이드해 곧 선보일 예정입니다.

🔗 지금 직접 써보세요

Windows 배치 파일로 원클릭 설치, 포터블로 어디서나 실행 가능. 자세한 정보와 다운로드는 GitHub에서:
Voice-Pro GitHub

Read Entire Article