명령어 입력하면 원하는 오디오 뚝딱
영화·비디오게임 등 콘텐츠 제작 유용
엔비디아가 25일(현지시간) 명령어만으로 목소리를 변조하고 세상에 없던 새로운 소리를 만들 수 있는 AI(인공지능) 오디오 생성 모델인 ‘푸가토’를 공개했다.
푸가토(Fugatto)는 ‘기본 생성형 오디오 변환 작품 1번(Foundational Generative Audio Transformer Opus 1)의 머릿글자를 따서 명명했다. 엔비디아의 설명에 따르면 이 모델은 영화, 비디오게임 등 콘텐츠 제작에 유용하게 쓰일 수 있다. 브라이언 카탄자로 엔비디아 응용 딥러닝 연구부사장은 “생성형 AI는 음악, 비디오 게임과 무언가를 만들고자 하는 일반인들에게 새로운 기능을 제공할 것”이라고 설명했다.
엔비디아에 따르면 푸가토는 사용자가 텍스트와 오디오를 입력하면 생성형AI 모델을 통해 여러 소리를 합성해 원하는 소리를 만들어준다. 주요 기능으로는 ‘텍스트로 오디오 생성’, ‘오디오 변환 및 생성’ 등이 있다. 텍스트로 오디오 생성 기능은 푸가토에 명령어를 입력하면 오디오를 만들어주는 기능이다.
엔비디아는 푸가토가 텍스트로 음악을 생성하는 기존 도구와 다른점은 세 가지라고 강조했다.
우선 독립적으로 훈련된 명령을 조합해 실행하며, 생성되는 음악의 억양 강도나 감정 깊이를 세밀하게 조정할 수 있다. ‘프랑스 억양의 슬픈 감정으로 말하는 음성’처럼 복합적인 명령을 AI가 이해하고 작업을 수행할 수 있다는 것이다. 두 번째는 시간 변화에 따른 특정 조건을 적용해 ‘천둥이 치는 폭풍우가 멈추고 점차 새소리가 들리는 새벽 소리’과 같은 명령이 가능하다. 마지막으로 훈련 데이터에 없는 완전히 새로운 소리도 만들 수 있다는 것이다.
푸가토 개발에 참여한 오케스트라 지휘자 겸 작곡가인 라파엘 발레 엔비디아 응용 오디오 연구 매니저는 “인간이 소리를 이해하고 만들어내는 방식과 유사한 모델을 개발하고자 했다”고 밝혔다.
엔비디아가 공개한 예시에선 사용자가 ‘거대한 지각 기계가 께어나는 소리처럼 간헐적이고 고음이 높은 디지털음과 결합된 깊고 시끄러운 저음’이란 명령어를 입력하자 푸가토는 SF영화에서나 들을 수 있을법한 웅웅거림으로시작해 고음의 현악 또는 금속성 소리를 만들어냈다. 이런 추상적인 주문 외에도 좀 더 구체적인 지시를 할 수도 있다. 가령 ‘기차가 지나가는 소리를 만들고 이 소리가 현악 오케스트라 소리로 변하게 해줘’라는 명령어를 입력하자 푸가토는 경적소리를 내며 달리는 기차 소리로 시작해 이 소리를 자연스럽게 현악 소리로 변환해 연결시켰다.
기존 오디오에서 소리를 분할하는 기능도 제공한다. 노래에서 반주를 제거하고 가수의 목소리만을 따로 분리해낸다. 기존 오디오에 새로운 악기를 더하거나 오디오를 새로운 것으로 바꿀 수도 있다. 예를 들어 피아노 반주를 여성 가수의 목소리로 변환할 수 있으며, 음악 스타일도 오페라에서 팝으로 변경할 수 있다.
명령어를 입력하면 원하는 음성을 만들어주기도 한다. 차분한 목소리로 만든 음성을 화났거나 행복한 목소리로 바꿀 수도 있다. 엔비디아는 가족이나 친구 등 내게 익숙한 목소리로 온라인 강좌를 들을 수도 있다고 덧붙였다.
엔비디아가 이날 공개한 논문을 통해 푸가토를 교육하는데 BBC 음향 효과 라이브러리 등 이미 공개된 수많은 데이터를 사용했다고 밝혔다. 공개된 데이터를 사용했다는 점을 강조하는 것은 최근 업계 논란이 되고 있는 저작권 위반을 의식한 것으로 추정된다.
그럼에도 불구하고 푸가토의 공식 출시 일정은 미정이다. 엔비디아가 사람의 음성이나 음향을 새롭게 만들거나 수정할 수 있는 푸가토의 기능에 윤리적 부담감을 느끼기 때문이라는 관측이 나온다.
카탄자로 연구부사장은 “모든 기술 발전에는 사람들이 이를 사용해 우리가 원치 않는 것을 만들 수 있는 위험이 따른다”며 “이에 대해 주의해야 하기 때문에 즉각 제품을 선보이지는 않을 것”이라고 강조했다.
엔비디아는 푸가토 외에도 엔터테인먼트 분야에서 활용될 수 있는 다양한 생성형AI를 선보여왔다. 캐릭터 얼굴 애니메이션을 음성 입력만으로 생성해주는 ‘오디오투페이스’, 음성 입력을 기반으로 캐릭터의 사실적인 애니메이션을 만들어주는 ‘오디오투제스처’, 디지털 아바타 제작용 AI 서비스인 ‘옴니버스 에이스’, 음성 인식과 합성을 위한 실시간 대화형 음성AI를 지원하는 ‘리바’ 등이 대표적이다.