FFmpeg 8.0, Whisper 지원 추가

2 days ago 4

FFmpeg 8.0 버전은 Whisper 음성 인식 모델 지원 기능을 공식적으로 추가함
Whisper는 OpenAI가 개발한 오픈소스 음성 인식 모델로, 다양한 언어 자동 음성 변환에 사용됨
이 기능 도입으로 비디오 및 오디오 처리 작업에서 직접 음성-텍스트 변환 워크플로우 자동화 가능성 증대
개발자들과 미디어 자동화 분야에서 FFmpeg 활용성 및 효율성이 크게 강화됨
최신 음성 인식 기능을 내장하면서 추가적인 외부 도구나 복잡한 통합 과정 부담을 줄임

FFmpeg 8.0의 Whisper 지원 개요

FFmpeg 8.0 버전은 Whisper 음성 인식 모델 지원을 추가함으로써 다양한 언어로 음성 데이터를 텍스트로 자동 변환하는 기능을 제공함
Whisper는 OpenAI가 만든 딥러닝 기반 알고리듬을 활용해, 높은 정확도의 음성-텍스트 변환 성능을 보장함
기존 FFmpeg 사용자는 외부 도구를 거치지 않고, 내장된 Whisper 지원 기능을 통해 비디오 및 오디오 파일에서 자막을 생성하거나 음성 내용을 추출할 수 있는 편의성을 얻게 됨

Whisper 통합의 주요 이점

Whisper 통합으로 인해, FFmpeg 기반의 미디어 처리 및 자동화 파이프라인에서 효율적이고 확장성이 높은 음성 인식 워크플로우 구현이 가능해짐
음성 인식 알고리듬이 내장됨에 따라 개발자는 복잡한 추가 연동 작업이나 별도 스크립트 작성 부담 없이,간단한 명령만으로 음성 텍스트 변환 결과를 얻을 수 있는 장점이 있음

FFmpeg와 Whisper 조합의 산업적 의의

방대한 미디어 자산 관리, 자막 생성, 영상 데이터 아카이빙 등 다양한 분야에서 FFmpeg + Whisper의 조합은 비용 효율성과 자동화를 동시에 실현할 수 있는 강점을 가짐
기존에는 별도의 오픈소스 음성 인식 도구를 FFmpeg와 연동해야 했으나, 이제는 FFmpeg 본체에서 직접 처리함으로써 워크플로우 단순화 및 처리 속도 향상 효과를 기대할 수 있음

기술적 세부 사항

FFmpeg에 Whisper.cpp 라이브러리를 기반으로, FFmpeg 내부에서 바로 자동 음성 인식(ASR) 을 수행하는 오디오 필터가 추가
--enable-whisper 옵션으로 활성화 가능하며, 모델 경로(model)는 필수 지정
주요 옵션: 언어 설정(language), GPU 사용 여부(use_gpu), 큐 크기(queue), 출력 형식(format: text/srt/json), VAD(음성활동검출) 모델 및 임계값 설정 등
- queue 값을 작게 하면 실시간성이 높지만 정확도가 떨어지고 CPU 부하 증가, 크게 하면 정확도가 높지만 지연이 커짐
- destination 옵션으로 출력 파일·URL·메타데이터에 결과 저장 가능하며, AVIO 프로토콜도 지원함
예제로 SRT 자막 생성, JSON 형식 HTTP 전송, 마이크 입력 실시간 전사(VAD 사용) 시나리오 포함
- SRT 자막 파일 생성 예제 ffmpeg -i input.mp4 -vn \ -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \ -f null -

Read Entire Article