Cloudflare의 AI 플랫폼: 에이전트를 위한 추론 계층

1 week ago 7

다양한 모델과 제공자를 통합해 에이전트형 애플리케이션의 복잡성을 줄이는 통합 추론 계층을 구축
AI Gateway와 Workers AI를 통해 70개 이상의 모델과 12개 이상의 제공자를 하나의 API로 호출 가능하며, 비용과 사용량을 중앙에서 관리
사용자 정의 모델을 직접 배포할 수 있도록 Replicate의 Cog 기술을 활용해 컨테이너 기반 모델 실행을 지원
전 세계 330개 도시의 인프라를 활용해 지연시간을 최소화하고, 장애 발생 시 자동 라우팅으로 안정적 추론 보장
Replicate 팀이 Cloudflare에 합류해 모델 호스팅과 배포를 완전 통합, 에이전트 개발을 위한 단일 플랫폼으로 확장 중

Cloudflare AI Platform 개요

AI 모델의 빠른 변화와 제공자 간 차이로 인해, 여러 모델을 조합해 사용하는 에이전트형 애플리케이션의 복잡성이 증가함
- 예를 들어 고객지원 에이전트는 메시지 분류에 빠른 모델, 계획 수립에 대형 모델, 실행에 경량 모델을 각각 사용
- 단일 제공자에 종속되지 않으면서 비용·신뢰성·지연시간을 통합 관리할 필요가 있음
Cloudflare는 AI Gateway와 Workers AI를 기반으로, 모든 모델을 하나의 API로 호출할 수 있는 통합 추론 계층을 구축함
- 최근 대시보드 개편, 기본 게이트웨이 자동 설정, 업스트림 장애 자동 재시도, 세분화된 로깅 제어 기능을 추가

AI.run() 바인딩을 통해 Cloudflare Workers에서 타사 모델(OpenAI, Anthropic 등)을 직접 호출 가능
- Cloudflare 호스팅 모델에서 타사 모델로 전환 시 코드 한 줄만 수정하면 됨
- REST API 지원도 곧 제공 예정으로, 어떤 환경에서도 전체 모델 카탈로그 접근 가능
70개 이상의 모델, 12개 이상의 제공자를 하나의 API와 결제 단위로 이용 가능
- 주요 제공자: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- 이미지·비디오·음성 모델을 포함해 멀티모달 애플리케이션 구축 가능
모든 모델 호출이 하나의 API로 통합되어 AI 사용량과 비용을 중앙에서 관리 가능
- 평균적으로 기업은 3.5개의 모델을 여러 제공자에서 호출하고 있으나, AI Gateway는 이를 단일 대시보드에서 추적 가능
- 요청 시 사용자 정의 메타데이터를 포함해 고객별·워크플로별 비용 분석 가능

AI Gateway는 모든 제공자의 모델을 통합 제공하지만, 사용자 데이터로 미세조정된 모델을 직접 배포할 수 있도록 준비 중
- 현재 엔터프라이즈 고객은 전용 인스턴스에서 커스텀 모델을 실행 중이며, 이를 일반 사용자에게 확장 예정
Cloudflare는 Replicate의 Cog 기술을 활용해 머신러닝 모델을 컨테이너화
- cog.yaml 파일에 의존성 정의, predict.py 파일에 추론 코드를 작성하면 자동으로 패키징
- Cog는 CUDA, Python 버전, 가중치 로딩 등 복잡한 설정을 추상화
cog build 명령으로 컨테이너 이미지를 빌드 후 Workers AI에 업로드하면, Cloudflare가 배포 및 서비스 수행
- 향후 wrangler 명령어, GPU 스냅샷 기반 빠른 콜드 스타트, 고객용 API 제공 예정
- 내부 및 일부 외부 고객과 테스트 중이며, 누구나 자체 모델을 Workers AI에서 사용할 수 있도록 확장 계획

AI Gateway + Workers AI 조합은 실시간 응답이 중요한 라이브 에이전트에 특히 유리
- 전체 추론 시간이 3초라도, 첫 토큰이 50ms 빨리 도착하면 사용자 체감 속도 향상
Cloudflare는 전 세계 330개 도시의 데이터센터를 통해 사용자와 추론 엔드포인트 간 네트워크 지연을 최소화
Workers AI는 Kimi K2.5 및 실시간 음성 모델 등 에이전트 특화 오픈소스 모델을 호스팅
- AI Gateway를 통해 호출 시 코드와 추론이 동일 네트워크에서 실행되어 최저 지연시간 달성

에이전트 워크플로는 단계 간 의존성이 높아 추론 안정성이 핵심
- AI Gateway는 동일 모델이 여러 제공자에 존재할 경우, 한 곳이 장애 시 자동으로 다른 제공자로 라우팅
- 개발자가 별도의 장애 처리 로직을 작성할 필요 없음
Agents SDK를 사용하는 장기 실행형 에이전트의 경우, 스트리밍 추론이연결 끊김에도 복원 가능
- AI Gateway가 스트리밍 응답을 독립적으로 버퍼링해, 중단 시 재연결 후 동일 응답을 재사용 가능
- 중복 과금 없이 동일 토큰을 복원하며, SDK의 체크포인트 기능과 결합 시 사용자에게 중단이 감지되지 않음

Replicate 팀이 Cloudflare AI Platform 팀에 합류하여 완전한 통합 진행 중
- Replicate의 모든 모델을 AI Gateway로 이관하고, 호스팅 모델을 Cloudflare 인프라로 재플랫폼화
- 사용자는 기존 Replicate 모델을 AI Gateway에서 호출하거나, Replicate에 배포한 모델을 Workers AI에서 호스팅 가능

Cloudflare는 연결 중심 클라우드(connectivity cloud) 로서 기업 네트워크 보호, 대규모 애플리케이션 구축, 웹 성능 가속, DDoS 방어 및 Zero Trust 보안 지원
무료 앱 1.1.1.1을 통해 더 빠르고 안전한 인터넷 사용 가능
Cloudflare의 사명은 더 나은 인터넷 구축이며, 관련 정보와 채용은 공식 웹사이트에서 확인 가능