FFmpeg 8.0, Whisper 지원 추가

2 days ago 4

  • FFmpeg 8.0 버전Whisper 음성 인식 모델 지원 기능을 공식적으로 추가함
  • Whisper는 OpenAI가 개발한 오픈소스 음성 인식 모델로, 다양한 언어 자동 음성 변환에 사용됨
  • 이 기능 도입으로 비디오 및 오디오 처리 작업에서 직접 음성-텍스트 변환 워크플로우 자동화 가능성 증대
  • 개발자들과 미디어 자동화 분야에서 FFmpeg 활용성 및 효율성이 크게 강화됨
  • 최신 음성 인식 기능을 내장하면서 추가적인 외부 도구나 복잡한 통합 과정 부담을 줄임

FFmpeg 8.0의 Whisper 지원 개요

  • FFmpeg 8.0 버전은 Whisper 음성 인식 모델 지원을 추가함으로써 다양한 언어로 음성 데이터를 텍스트로 자동 변환하는 기능을 제공함
  • Whisper는 OpenAI가 만든 딥러닝 기반 알고리듬을 활용해, 높은 정확도의 음성-텍스트 변환 성능을 보장함
  • 기존 FFmpeg 사용자는 외부 도구를 거치지 않고, 내장된 Whisper 지원 기능을 통해 비디오 및 오디오 파일에서 자막을 생성하거나 음성 내용을 추출할 수 있는 편의성을 얻게 됨

Whisper 통합의 주요 이점

  • Whisper 통합으로 인해, FFmpeg 기반의 미디어 처리 및 자동화 파이프라인에서 효율적이고 확장성이 높은 음성 인식 워크플로우 구현이 가능해짐
  • 음성 인식 알고리듬이 내장됨에 따라 개발자는 복잡한 추가 연동 작업이나 별도 스크립트 작성 부담 없이,간단한 명령만으로 음성 텍스트 변환 결과를 얻을 수 있는 장점이 있음

FFmpeg와 Whisper 조합의 산업적 의의

  • 방대한 미디어 자산 관리, 자막 생성, 영상 데이터 아카이빙 등 다양한 분야에서 FFmpeg + Whisper의 조합은 비용 효율성과 자동화를 동시에 실현할 수 있는 강점을 가짐
  • 기존에는 별도의 오픈소스 음성 인식 도구를 FFmpeg와 연동해야 했으나, 이제는 FFmpeg 본체에서 직접 처리함으로써 워크플로우 단순화 및 처리 속도 향상 효과를 기대할 수 있음

기술적 세부 사항

  • FFmpeg에 Whisper.cpp 라이브러리를 기반으로, FFmpeg 내부에서 바로 자동 음성 인식(ASR) 을 수행하는 오디오 필터가 추가
  • --enable-whisper 옵션으로 활성화 가능하며, 모델 경로(model)는 필수 지정
  • 주요 옵션: 언어 설정(language), GPU 사용 여부(use_gpu), 큐 크기(queue), 출력 형식(format: text/srt/json), VAD(음성활동검출) 모델 및 임계값 설정
    • queue 값을 작게 하면 실시간성이 높지만 정확도가 떨어지고 CPU 부하 증가, 크게 하면 정확도가 높지만 지연이 커짐
    • destination 옵션으로 출력 파일·URL·메타데이터에 결과 저장 가능하며, AVIO 프로토콜도 지원함
  • 예제로 SRT 자막 생성, JSON 형식 HTTP 전송, 마이크 입력 실시간 전사(VAD 사용) 시나리오 포함
    • SRT 자막 파일 생성 예제 ffmpeg -i input.mp4 -vn \ -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \ -f null -

Read Entire Article