Kokoro-82M 모델로 전자책을 오디오북으로 변환하기

2 days ago 2

  • Kokoro v0.19는 최근에 발표된 텍스트-음성 변환 모델로, 82M의 파라미터를 가지고 있으며 매우 높은 품질의 출력을 제공함
    • Apache 라이선스, 100시간 미만의 오디오로 학습되었음
    • 미국 영어, 영국 영어, 프랑스어, 한국어, 일본어, 중국어를 지원하며, 다양한 고품질의 목소리를 제공함
  • Kokoro의 활용

    • 사용자는 전자책을 오디오북으로 변환할 수 있는 Audiblez라는 도구를 통해 Kokoro를 활용할 수 있음.
    • Audiblez는 .epub 파일을 파싱하여 책의 본문을 잘 녹음된 오디오 파일로 변환함.
    • 예를 들어, M2 MacBook Pro에서 약 100,000 단어의 책을 변환하는 데 약 2시간이 소요됨.
  • 설치 및 실행 방법

    • Python 3가 설치된 컴퓨터에서 pip을 통해 Audiblez를 설치할 수 있음.
    • Python 3.13에서는 작동하지 않음.
    • 약 360MB의 추가 파일을 다운로드해야 함.
    • .epub 파일을 오디오북으로 변환하려면 명령어를 실행해야 함.
  • 지원 언어 및 목소리

    • -l 옵션을 사용하여 언어를 지정할 수 있으며, 지원되는 언어 코드는 en-us, en-gb, fr-fr, ja, ko, cmn임.
    • -v 옵션을 사용하여 목소리를 지정할 수 있으며, 다양한 목소리를 제공함.
  • 챕터 감지

    • 챕터 감지는 약간 불안정하지만 대부분의 .epub 파일에서 핵심 챕터를 찾을 수 있음.
    • 관심 있는 챕터가 포함되지 않을 경우, 코드의 is_chapter 함수를 조정해 볼 수 있음.
  • 소스 코드 및 개선 사항

    • Audiblez 프로젝트는 GitHub에서 확인할 수 있음.
    • 향후 개선 사항으로는 더 나은 챕터 감지, 챕터 내비게이션 추가, 이미지에 대한 내레이션 추가 등이 있음.

Read Entire Article