개발자는 이미 여러 LLM 및 생성형 AI 기반 도구를 사용해 자동화 도구를 만들고 있다. 그리고 곧 이들 도구가 서로 협력하는 것도 가능해질 전망이다. AI ‘스웜(swarm)’이라는 이런 새로운 발전은 사이버보안, 자동화, 그리고 IT 전반에 걸쳐 경각심을 일깨우고 있다. 그중에서도 가장 주목받는 것이 오픈AI의 ‘스웜(Swarm)’이다.
오픈AI 스웜이란?
오픈AI는 최근 ‘스웜(Swarm)’이라는 실험적인 프레임워크를 출시했다. 오픈AI에 따르면, 스웜은 인간의 개입 없이 복잡한 작업을 함께 수행할 수 있는 자율 AI 에이전트 네트워크, 즉 에이전틱 AI 스웜을 개발하기 위한 “경량” 시스템이다. 필자는 지난 7월 ‘글로벌 칼럼 | 사람 대신 의사 결정 내리는 '에이전틱 AI'의 가능성과 함정’에서 에이전틱 AI에 대해 다루었지만, 스웜 에이전트에 대해서는 논의하지 않았다.
스웜은 완제품이 아닌, 다수의 AI 에이전트를 조정하거나 조율하는 실험 도구다. 이 프레임워크는 MIT 라이선스 하에 오픈소스로 제공돼 파이썬 개발자가 최소한의 제약으로 소프트웨어를 사용, 수정, 배포할 수 있으며 깃허브에서 다운로드할 수 있다.
깃허브 설명서에는 다음과 같이 나와 있다.
스웜은 현재 다중 에이전트 시스템을 위한 편리한 인터페이스를 탐구하기 위한 실험적인 샘플 프레임워크다. 프로덕션 용도로 사용하기 위해 만들어진 것이 아니며, 공식 지원을 제공하지 않는다. (이는 곧 PR이나 이슈를 검토하지 않는다는 의미다!) 스웜의 주요 목표는 오케스트레이팅 에이전트에서 살펴본 에이전트 조정 패턴인 ‘핸드오프(handoff)’와 ‘루틴(routines)’을 선보이는 데 있다. 독립적인 라이브러리로 사용하기보다는 교육 목적으로 제작됐다.
스웜이 완전히 새로운 개념은 아니다. 기존의 다른 시스템도 다중 에이전트를 조정할 수 있으며, 이들 역시 에이전틱 AI 스웜에 가까운 기능을 제공한다. 스웜을 위해 설계되지는 않았지만 AI 에이전트 간의 상호작용을 가능하게 하는 시스템에는 마이크로소프트 오토젠(Microsoft AutoGen), 크루AI(CrewAI), 랭체인(LangChain), 랭그래피(LangGraph), 메타GPT(MetaGPT), 오토GPT(AutoGPT), 그리고 헤이스택(Haystack) 등이 있다.
스웜은 상대적으로 간단하고 사용하기 쉽게 설계된 반면, 이런 다른 도구는 더 강력하고 신뢰할 수 있으며 지원도 이루어지고 있어 실제 현장에서 사용할 수 있다.
오픈AI는 스웜을 통해 에이전트 협업을 개선하는 방법을 탐구하고 있다. 여기서 ‘루틴’은 에이전트를 특정 작업이나 워크플로로 안내하는 미리 정의된 지침 세트로, 에이전트가 이 루틴을 따라감으로써 시스템에 대한 제어 및 예측 가능성을 더한다. ‘핸드오프’는 특정 상황에 맞춰 한 에이전트가 다른 에이전트에 작업을 넘기는 것을 의미한다. 예를 들어, 어떤 작업이 특정 전문 에이전트가 더 잘 처리할 수 있는 일이라면, 해당 작업을 그 에이전트에게 넘기는 것이다. 이때 작업의 히스토리는 새 에이전트에게 제공되므로 에이전트가 달라져도 컨텍스트에 맞게 작업을 이어갈 수 있다.
스웜의 한 가지 특징은 ‘상태를 저장하지 않는(stateless)’다는 점이다. 즉, 에이전트들이 이전 상호작용을 기억하지 않는다. 이런 점은 에이전트가 단순한 작업만 처리할 수 있도록 제한하는 요소이기도 하다(개발자는 에이전트 간 상호작용에서 기억을 활성화할 수 있는 솔루션을 구축할 수 있다).
스웜은 실제 프로덕션 용도가 아니며, 오픈AI가 앞으로 이를 유지보수할 계획도 없다. 그러나 오픈AI가 이 개념을 실험하고 있다는 사실만으로도 향후 에이전트 스웜이 일반화될 가능성을 시사한다. 또한 에이전트 스웜 기술에 대한 접근성이 점차 개선되고 있는 추세를 반영하고 있다.
올바른 도구인가?
에이전틱 AI 스웜 기술은 생성형 AI 발전의 강력한 다음 단계로 볼 수 있다. 실제로 스웜은 GPT-4와 같은 LLM을 사용하는 오픈AI의 챗 컴플리션(Chat Completion) API를 기반으로 구축되었다. 이 API는 AI 모델과의 상호작용 대화를 용이하게 하도록 설계됐다. 개발자는 자연어 대화를 수행하는 챗봇, 인터랙티브 에이전트, 기타 응용 프로그램을 만들 수 있다.
오늘날 개발자는 특정 작업을 수행하는 개별 AI 도구를 제작하고 있다. 에이전틱 AI는 다양한 특정 작업을 전문적으로 수행하는 도구를 대거 만들고, 각 도구가 필요할 때 서로를 호출해 작업을 맡길 수 있도록 해준다. 이런 도구 유형은 다음과 같다.
- RAG(Retrieval-Augmented Generation) : 관련 정보를 검색하여 텍스트 생성 보완
- NL2SQL : 자연어 질의를 SQL 명령어로 변환
- 텍스트 생성 : 다양한 서면 콘텐츠 생성
- 코드 생성 : 자연어 설명을 바탕으로 코드 작성
- 데이터 분석 : 대규모 데이터셋을 처리 및 해석
- 이미지 생성 : 텍스트 프롬프트를 통해 이미지 생성
- 음성 합성 : 텍스트를 음성으로 변환
- 언어 번역 : 다양한 언어 간 번역
- 요약 : 장문 콘텐츠를 간결한 요약으로 축소
- 대화 관리 : 챗봇에서 다중 대화 턴 관리
이제 사용자가 도구를 선택하고 새로운 도구를 열어 복잡한 AI 기반 작업을 직접 안내할 필요 없이 에이전트들이 이 모든 과정을 자율적으로 처리할 수 있다.
무엇이 문제일까?
에이전틱 AI 스웜은 기업 생산성을 크게 높일 수 있으며, 직원이 더 고차원적인 책임에 집중할 수 있게 도와준다. 그러나 보안 측면의 위험도 분명하다. 현재로서는 에이전틱 AI 스웜을 악용하는 국가나 해커가 없지만, 그런 날이 다가오고 있다.
적대적인 국가들은 이미 LLM, 심지어 챗GPT까지 악성 탐색 및 리서치, 스크립팅과 코딩, 소셜 엔지니어링과 피싱 콘텐츠 제작, 언어 번역, 탐지 회피에 사용하고 있다.
에이전틱 AI 스웜이 도입되면, 각 작업에 특화된 개별 AI 에이전트를 만들어 다른 에이전트를 호출하며 대규모, 고속의 해킹을 진행할 수 있게 될 것이다. 인간 운영자의 ‘병목 현상’을 제거해 해킹이 빠른 속도로, 대규모로 일어날 수 있다. 이런 초기 단계에서 에이전틱 AI 스웜 공격에 대한 가장 효과적인 방어 수단은 에이전틱 AI 스웜 방어일 가능성이 높다.
과도한 복잡성도 위험하다. 에이전틱 AI 및 에이전틱 AI 스웜 기술은 목표 달성을 위해 자율적으로 작동한다. 즉, 에이전틱 AI의 목표 달성 방식이 ‘창의적’일 수 있고 달성 방식과 과정을 정확하게 알 수 없는 경우가 생길 수 있다. 심지어 개별 에이전트가 어떤 작업을 수행하고 있는지, 작동 여부도 파악하지 못할 수 있다.
비관적(혹은 현실적)인 예로는, 에이전틱 AI 스웜이 사람의 역할을 대신할 수 있기 때문에 일자리 감소를 가속화할 수 있다는 우려도 있다. 다른 AI 기술과 마찬가지로, 에이전틱 AI 스웜은 기회와 위험을 동시에 안고 있다.
오픈AI 스웜은 에이전트 스웜에 더 간단하고 쉽게 접근하려는 움직임이 있음을 보여준다. 가까운 미래에 스웜 에이전트 수가 기하급수적으로 증가하고, 모든 작동화 작업에 에이전틱 AI를 사용할 것이라는 기대가 높아질 것임을 의미한다.
에이전트가 다가오고 있다. 그들이 도착하기 전에 에이전트에 대해 모두 알아두는 것이 좋다.
editor@itworld.co.kr