- Agent 프레임워크를 사용하면 실시간으로 보고, 듣고, 말할 수 있는 AI 기반 서버 프로그램을 구축할 수 있음
- 사용자의 기기와 LiveKit 세션을 통해 연결되며, 텍스트, 오디오, 이미지, 비디오 스트리밍을 처리하고 AI 모델이 생성한 결과를 사용자에게 스트리밍함
- OpenAI와 협업해서 MultimodalAgent API 를 제공
- OpenAI의 Realtime API를 완전히 래핑해서 Raw Wire 프로토콜을 추상화하고, GPT-4o와 기기간 초저지연 WebRTC 전송을 제공
- ChatGPT 앱의 Advanced Voice 기능에서 사용하는 기술 스택임
- 제공 기능
- 유명 LLM, 전사 및 텍스트 음성 변환 서비스, RAG 데이터베이스를 위한 플러그인
- 자동 턴 감지, 중단 처리, 함수 호출 및 전사 기능을 갖춘 음성 에이전트 또는 어시스턴트를 구축하기 위한 높은 수준의 추상화 제공
- LiveKit의 텔레포니 스택과 호환되어 상담원이 전화로 전화를 걸거나 받을 수 있음
- 엣지 기반 디스패치, 모니터링, 투명한 장애 조치로 에이전트 풀을 관리하는 통합 로드 밸런싱 시스템
- 에이전트 실행은 로컬 호스트, 자체 호스팅 및 LiveKit Cloud 환경 모두에서 동일하게 이루어짐