에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU

3 weeks ago 24

Google이 10년 이상의 TPU 개발 역사를 집대성해 8세대 TPU 두 종을 발표했으며, 대규모 모델 훈련 전용 TPU 8t와 고속 추론 전용 TPU 8i로 각각 특화한 아키텍처를 채택
TPU 8t는 단일 슈퍼팟이 9,600칩, 121 ExaFlops까지 확장되며, 이전 세대 대비 Pod당 컴퓨팅 성능이 약 3배 향상
TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
두 칩 모두 Google 자체 설계 Axion ARM 기반 CPU 호스트에서 구동되며, 이전 세대 대비 와트당 성능이 최대 2배 향상
AI 에이전트가 연속적으로 추론·계획·실행하는 시대에 맞춰 훈련과 추론을 분리 최적화한 인프라 전략으로, 올해 하반기 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능

8세대 TPU 개요

Google Cloud Next에서 8세대 Tensor Processor Unit(TPU) 발표, 훈련용 TPU 8t와 추론용 TPU 8i 두 가지 아키텍처로 구성
커스텀 슈퍼컴퓨터를 구동하도록 설계되었으며, 최첨단 모델 훈련·에이전트 개발·대규모 추론 워크로드를 모두 포괄
Gemini를 포함한 주요 파운데이션 모델을 수년간 TPU로 구동해 왔으며, 8세대는 훈련·서빙·에이전틱 워크로드 전반에서 규모·효율·성능을 동시에 제공
AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동에서 학습하는 연속 루프를 수행해야 하므로 인프라에 새로운 요구 사항 발생
Google DeepMind와 협력해 가장 까다로운 AI 워크로드를 처리하고 진화하는 모델 아키텍처에 적응하도록 설계

10년 이상의 설계 철학

TPU는 커스텀 수치 연산, 액체 냉각, 커스텀 인터커넥트 등 ML 슈퍼컴퓨팅 구성요소의 표준을 제시해 왔으며, 8세대는 10년 이상의 개발 집대성
핵심 설계 원칙: 실리콘을 하드웨어·네트워킹·소프트웨어(모델 아키텍처·애플리케이션 요구사항 포함)와 공동 설계(co-design) 함으로써 전력 효율과 절대 성능 모두에서 극적인 향상 달성
Citadel Securities가 자사 AI 워크로드에 TPU를 선택한 사례를 선도적 조직의 예시로 언급

훈련과 추론을 분리한 이유

하드웨어 개발 주기가 소프트웨어보다 훨씬 길어, 각 세대 TPU 설계 시 출시 시점의 기술과 수요를 미리 예측할 필요
수년 전부터 프론티어 AI 모델의 프로덕션 배포에 따른 추론 수요 증가를 예상
AI 에이전트 부상으로 훈련과 서빙의 요구사항이 각각 다르므로, 개별 특화 칩이 커뮤니티에 유리하다고 판단
TPU 8t는 더 큰 컴퓨팅 처리량과 스케일업 대역폭으로 대규모 훈련에 최적화
TPU 8i는 더 많은 메모리 대역폭으로 지연 민감 추론 워크로드에 최적화, 에이전트 간 상호작용이 대규모에서 작은 비효율도 증폭시키기 때문
두 칩 모두 다양한 워크로드를 실행할 수 있으나, 특화를 통해 상당한 효율 향상 실현

TPU 8t: 훈련 전용 파워하우스

프론티어 모델 개발 주기를 수개월에서 수주로 단축하는 것이 목표
최고 수준의 컴퓨팅 처리량, 공유 메모리, 칩 간 대역폭을 최적 전력 효율 및 생산적 컴퓨팅 시간과 균형 있게 조합
이전 세대 대비 팟당 컴퓨팅 성능 약 3배 향상
대규모 확장(Massive Scale)
- 단일 TPU 8t 슈퍼팟이 9,600칩, 2페타바이트 공유 HBM까지 확장
- 이전 세대 대비 칩 간 대역폭 2배
- 121 ExaFlops의 컴퓨팅 성능 제공, 가장 복잡한 모델이 단일 대규모 메모리 풀 활용 가능
최대 활용률(Maximum Utilization)
- 10배 빠른 스토리지 접근 통합
- TPUDirect로 데이터를 TPU에 직접 풀링하여 엔드투엔드 시스템의 최대 활용률 보장
근선형 확장(Near-Linear Scaling)
- 새로운 Virgo Network과 JAX, Pathways 소프트웨어를 결합해 단일 논리 클러스터에서 최대 100만 칩까지 근선형 확장 가능
신뢰성 및 가용성
- 목표 goodput(유용한 생산적 컴퓨팅 시간) 97% 이상
- 포괄적 RAS(Reliability, Availability, Serviceability) 기능 포함
  - 수만 칩에 걸친 실시간 텔레메트리
  - 결함 ICI 링크의 자동 감지 및 작업 중단 없는 우회 라우팅
  - OCS(Optical Circuit Switching) 로 인간 개입 없이 장애 주변 하드웨어 재구성
- 프론티어 훈련 규모에서 하드웨어 장애·네트워크 지연·체크포인트 재시작은 비훈련 시간이며, 1%p 차이가 수일의 훈련 시간으로 전환

TPU 8i: 추론 엔진

에이전틱 시대에 사용자가 질문하고 작업을 위임하고 결과를 받는 경험을 기대하므로, 여러 전문 에이전트가 복잡한 플로우에서 스워밍(swarming) 하며 협업하는 작업에 최적화
"대기실 효과"를 제거하기 위해 스택을 재설계, 네 가지 핵심 혁신 적용
메모리 벽 돌파(Breaking the Memory Wall)
- 288GB HBM과 384MB 온칩 SRAM(이전 세대 대비 3배) 탑재
- 모델의 활성 워킹셋 전체를 온칩에 유지해 프로세서 유휴 상태 방지
Axion 기반 효율성
- 서버당 물리 CPU 호스트를 2배로 늘리고, Google 자체 Axion ARM 기반 CPU 채택
- NUMA(Non-Uniform Memory Architecture) 격리를 통해 전체 시스템 성능 최적화
MoE 모델 확장
- 최신 Mixture of Expert(MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
- 새로운 Boardfly 아키텍처로 최대 네트워크 직경을 50% 이상 축소, 하나의 응집력 있는 저지연 유닛으로 작동
지연 제거(Eliminating Lag)
- 새로운 온칩 CAE(Collectives Acceleration Engine) 이 글로벌 연산을 오프로드하여 온칩 지연을 최대 5배 감소
성능 대비 비용
- 이전 세대 대비 달러당 성능 80% 향상, 동일 비용으로 거의 2배의 고객 볼륨 서빙 가능

Gemini와 공동 설계, 모두에게 개방

8세대 TPU는 AI의 가장 큰 과제를 해결하기 위해 모든 스펙을 설계한 공동 설계 철학의 최신 표현
Boardfly 토폴로지: 오늘날 가장 뛰어난 추론 모델의 통신 요구에 맞춰 설계
TPU 8i의 SRAM 용량: 프로덕션 규모 추론 모델의 KV 캐시 풋프린트에 맞춰 산정
Virgo Network 대역폭 목표: 조 단위 파라미터 훈련의 병렬화 요구사항에서 도출
두 칩 모두 최초로 Google 자체 Axion ARM 기반 CPU 호스트에서 구동, 칩만이 아닌 전체 시스템 최적화 가능
프레임워크 및 접근성
- 네이티브 JAX, MaxText, PyTorch, SGLang, vLLM 지원
- 베어메탈 접근 제공, 가상화 오버헤드 없이 직접 하드웨어 접근 가능
- 오픈소스 기여: MaxText 레퍼런스 구현, 강화학습용 Tunix 등으로 개발에서 프로덕션 배포까지의 핵심 경로 지원

대규모 전력 효율 설계

오늘날 데이터센터에서 칩 공급뿐 아니라 전력이 바인딩 제약 조건
전체 스택에 걸쳐 효율성을 최적화하며, 실시간 수요에 따라 전력 소비를 동적 조정하는 통합 전력 관리 적용
TPU 8t와 TPU 8i 모두 이전 세대(Ironwood) 대비 와트당 성능 최대 2배 향상
효율성은 칩 수준 지표만이 아닌 실리콘에서 데이터센터까지의 시스템 수준 약속
- 네트워크 연결을 컴퓨팅과 동일 칩에 통합해 TPU 팟 내 데이터 이동의 전력 비용을 크게 절감
- 데이터센터도 TPU와 공동 설계, 5년 전 대비 전력 단위당 컴퓨팅 파워가 6배 향상
두 칩 모두 4세대 액체 냉각 기술로 지원, 공랭으로는 불가능한 성능 밀도 유지
Axion 호스트부터 가속기까지 전체 스택을 보유함으로써 호스트와 칩을 독립 설계할 때는 불가능한 시스템 수준 에너지 효율 최적화 실현

에이전틱 시대를 위한 인프라

모든 주요 컴퓨팅 전환에는 인프라 혁신이 필요하며, 에이전틱 시대도 마찬가지
자율 에이전트가 추론·계획·실행·학습의 연속 루프를 수행하는 요구에 인프라가 진화해야 함
TPU 8t와 TPU 8i는 이 과제에 대한 답변: 가장 뛰어난 AI 모델 구축, 완벽하게 오케스트레이션된 에이전트 스웜, 가장 복잡한 추론 작업 관리를 재정의하는 두 가지 특화 아키텍처
두 칩 모두 올해 하반기 일반 제공 예정
Google의 AI Hypercomputer의 일부로 사용 가능
- 목적별 하드웨어(컴퓨팅, 스토리지, 네트워킹), 오픈 소프트웨어(프레임워크, 추론 엔진), 유연한 소비 모델(오케스트레이션, 클러스터 관리, 딜리버리 모델)을 통합 스택으로 결합