카카오가 모델 오케스트레이션 전략을 통한 인공지능(AI) 기술 상용화에 속도를 내고 있다. 영상 재생 플랫폼인 팟플레이어에 오픈AI 기술을 붙여 실시간 자막 서비스를 내놨다.
6일 정보기술(IT) 업계에 따르면 카카오는 팟플레이어에 동영상 소리를 인식해 실시간 자막을 생성하는 기능을 지난달 적용했다. 오픈AI의 음성 인식 AI 모델인 위스퍼를 활용해 한국어뿐 아니라 영어, 중국어, 일본어 등 여러 언어로 자막을 지원한다. 다만 실시간 스트리밍 영상이 아닌 컴퓨터에 저장된 영상만 적용 가능하다. 이용자는 자막 변환에 쓸 AI 모델을 고를 수 있다. 매개변수(파라미터) 크기가 큰 모델일수록 정확하지만 자막 추출에 시간이 더 걸린다.
카카오가 팟플레이어에 위스퍼를 적용한 건 모델 오케스트레이션 전략의 일환으로 풀이된다. 이 전략은 서비스별로 최적화한 AI 모델을 골라 서비스 운용 비용을 절감하는 방식이다. 카카오는 자체 AI 모델뿐 아니라 오픈AI 등 다른 외부업체의 AI 모델도 효율이 좋다면 서비스에 탑재하겠다는 방침이다. 올 1분기 중 일반 이용자를 통해 시험할 대화형 AI 비서(에이전트)인 카나나도 음성 인식, 이미지 생성 등 서비스별로 다양한 AI 모델을 지원할 예정이다.
AI를 활용한 자막 생성 기능은 영상 플랫폼 시장에서 필수가 돼가는 상황이다. 유튜브가 이미 자막 자동 생성 기능을 지원하고 있고 네이버클라우드도 지난해 2월 실시간 송출되는 영상에서 자막을 추출해주는 기업간거래(B2B)용 서비스를 내놨다. 숲은 사명과 동명의 스트리밍 플랫폼으로 다국어 자막과 댓글 채팅 번역 기능을 공급하고 있다. KT와 LG유플러스 등 통신사도 자막 생성을 지원하는 인터넷(IP)TV 셋톱박스를 지난해 선보였다. 올해엔 두 통신사 모두 자막 지원 언어를 한국어 외 언어로 늘려나갈 예정이다.
카카오는 다른 영상 기술도 개발하고 있다. 지난해 10월 이 회사가 연 개발자 콘퍼런스에서 영상에 AI 가속기를 적용해 실시간 중계나 영상 가공에 응용하는 기술을 선보였다. 영상 스트리밍 서비스인 ‘카카오TV’는 사업을 축소했다. 지난해 2월 앱 운영을 종료한 이후 웹 서비스만 운영하고 있다. 네이버가 지난해 5월 스트리밍 서비스인 ‘치지직’을 정식 출시하면서 개인방송 시장에 뛰어든 것과는 대조적이다.
이주현 기자 deep@hankyung.com