에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU
4 hours ago
2
- Google이 10년 이상의 TPU 개발 역사를 집대성해 8세대 TPU 두 종을 발표했으며, 대규모 모델 훈련 전용 TPU 8t와 고속 추론 전용 TPU 8i로 각각 특화한 아키텍처를 채택
- TPU 8t는 단일 슈퍼팟이 9,600칩, 121 ExaFlops까지 확장되며, 이전 세대 대비 Pod당 컴퓨팅 성능이 약 3배 향상
- TPU 8i는 메모리 대역폭과 지연 시간 최적화에 초점을 맞춰 에이전트형 추론에 맞게 재설계됐고, 온칩 SRAM 확대와 Axion CPU 호스트, MoE 대응 네트워크 개선으로 성능 대비 비용 80% 개선 달성
- 두 칩 모두 Google 자체 설계 Axion ARM 기반 CPU 호스트에서 구동되며, 이전 세대 대비 와트당 성능이 최대 2배 향상
- AI 에이전트가 연속적으로 추론·계획·실행하는 시대에 맞춰 훈련과 추론을 분리 최적화한 인프라 전략으로, 올해 하반기 일반 제공 예정이며 Google AI Hypercomputer의 일부로 사용 가능
8세대 TPU 개요
- Google Cloud Next에서 8세대 Tensor Processor Unit(TPU) 발표, 훈련용 TPU 8t와 추론용 TPU 8i 두 가지 아키텍처로 구성
- 커스텀 슈퍼컴퓨터를 구동하도록 설계되었으며, 최첨단 모델 훈련·에이전트 개발·대규모 추론 워크로드를 모두 포괄
- Gemini를 포함한 주요 파운데이션 모델을 수년간 TPU로 구동해 왔으며, 8세대는 훈련·서빙·에이전틱 워크로드 전반에서 규모·효율·성능을 동시에 제공
- AI 에이전트 시대에는 모델이 문제를 추론하고, 다단계 워크플로를 실행하며, 자체 행동에서 학습하는 연속 루프를 수행해야 하므로 인프라에 새로운 요구 사항 발생
- Google DeepMind와 협력해 가장 까다로운 AI 워크로드를 처리하고 진화하는 모델 아키텍처에 적응하도록 설계
10년 이상의 설계 철학
- TPU는 커스텀 수치 연산, 액체 냉각, 커스텀 인터커넥트 등 ML 슈퍼컴퓨팅 구성요소의 표준을 제시해 왔으며, 8세대는 10년 이상의 개발 집대성
- 핵심 설계 원칙: 실리콘을 하드웨어·네트워킹·소프트웨어(모델 아키텍처·애플리케이션 요구사항 포함)와 공동 설계(co-design) 함으로써 전력 효율과 절대 성능 모두에서 극적인 향상 달성
- Citadel Securities가 자사 AI 워크로드에 TPU를 선택한 사례를 선도적 조직의 예시로 언급
훈련과 추론을 분리한 이유
- 하드웨어 개발 주기가 소프트웨어보다 훨씬 길어, 각 세대 TPU 설계 시 출시 시점의 기술과 수요를 미리 예측할 필요
- 수년 전부터 프론티어 AI 모델의 프로덕션 배포에 따른 추론 수요 증가를 예상
- AI 에이전트 부상으로 훈련과 서빙의 요구사항이 각각 다르므로, 개별 특화 칩이 커뮤니티에 유리하다고 판단
- TPU 8t는 더 큰 컴퓨팅 처리량과 스케일업 대역폭으로 대규모 훈련에 최적화
- TPU 8i는 더 많은 메모리 대역폭으로 지연 민감 추론 워크로드에 최적화, 에이전트 간 상호작용이 대규모에서 작은 비효율도 증폭시키기 때문
- 두 칩 모두 다양한 워크로드를 실행할 수 있으나, 특화를 통해 상당한 효율 향상 실현
TPU 8t: 훈련 전용 파워하우스
- 프론티어 모델 개발 주기를 수개월에서 수주로 단축하는 것이 목표
- 최고 수준의 컴퓨팅 처리량, 공유 메모리, 칩 간 대역폭을 최적 전력 효율 및 생산적 컴퓨팅 시간과 균형 있게 조합
- 이전 세대 대비 팟당 컴퓨팅 성능 약 3배 향상
-
대규모 확장(Massive Scale)
- 단일 TPU 8t 슈퍼팟이 9,600칩, 2페타바이트 공유 HBM까지 확장
- 이전 세대 대비 칩 간 대역폭 2배
- 121 ExaFlops의 컴퓨팅 성능 제공, 가장 복잡한 모델이 단일 대규모 메모리 풀 활용 가능
-
최대 활용률(Maximum Utilization)
- 10배 빠른 스토리지 접근 통합
- TPUDirect로 데이터를 TPU에 직접 풀링하여 엔드투엔드 시스템의 최대 활용률 보장
-
근선형 확장(Near-Linear Scaling)
- 새로운 Virgo Network과 JAX, Pathways 소프트웨어를 결합해 단일 논리 클러스터에서 최대 100만 칩까지 근선형 확장 가능
-
신뢰성 및 가용성
- 목표 goodput(유용한 생산적 컴퓨팅 시간) 97% 이상
- 포괄적 RAS(Reliability, Availability, Serviceability) 기능 포함
- 수만 칩에 걸친 실시간 텔레메트리
- 결함 ICI 링크의 자동 감지 및 작업 중단 없는 우회 라우팅
- OCS(Optical Circuit Switching) 로 인간 개입 없이 장애 주변 하드웨어 재구성
- 프론티어 훈련 규모에서 하드웨어 장애·네트워크 지연·체크포인트 재시작은 비훈련 시간이며, 1%p 차이가 수일의 훈련 시간으로 전환
TPU 8i: 추론 엔진
- 에이전틱 시대에 사용자가 질문하고 작업을 위임하고 결과를 받는 경험을 기대하므로, 여러 전문 에이전트가 복잡한 플로우에서 스워밍(swarming) 하며 협업하는 작업에 최적화
- "대기실 효과"를 제거하기 위해 스택을 재설계, 네 가지 핵심 혁신 적용
-
메모리 벽 돌파(Breaking the Memory Wall)
- 288GB HBM과 384MB 온칩 SRAM(이전 세대 대비 3배) 탑재
- 모델의 활성 워킹셋 전체를 온칩에 유지해 프로세서 유휴 상태 방지
-
Axion 기반 효율성
- 서버당 물리 CPU 호스트를 2배로 늘리고, Google 자체 Axion ARM 기반 CPU 채택
- NUMA(Non-Uniform Memory Architecture) 격리를 통해 전체 시스템 성능 최적화
-
MoE 모델 확장
- 최신 Mixture of Expert(MoE) 모델을 위해 ICI 대역폭을 19.2 Tb/s로 2배 확대
- 새로운 Boardfly 아키텍처로 최대 네트워크 직경을 50% 이상 축소, 하나의 응집력 있는 저지연 유닛으로 작동
-
지연 제거(Eliminating Lag)
- 새로운 온칩 CAE(Collectives Acceleration Engine) 이 글로벌 연산을 오프로드하여 온칩 지연을 최대 5배 감소
-
성능 대비 비용
- 이전 세대 대비 달러당 성능 80% 향상, 동일 비용으로 거의 2배의 고객 볼륨 서빙 가능
Gemini와 공동 설계, 모두에게 개방
- 8세대 TPU는 AI의 가장 큰 과제를 해결하기 위해 모든 스펙을 설계한 공동 설계 철학의 최신 표현
- Boardfly 토폴로지: 오늘날 가장 뛰어난 추론 모델의 통신 요구에 맞춰 설계
- TPU 8i의 SRAM 용량: 프로덕션 규모 추론 모델의 KV 캐시 풋프린트에 맞춰 산정
- Virgo Network 대역폭 목표: 조 단위 파라미터 훈련의 병렬화 요구사항에서 도출
- 두 칩 모두 최초로 Google 자체 Axion ARM 기반 CPU 호스트에서 구동, 칩만이 아닌 전체 시스템 최적화 가능
-
프레임워크 및 접근성
- 네이티브 JAX, MaxText, PyTorch, SGLang, vLLM 지원
- 베어메탈 접근 제공, 가상화 오버헤드 없이 직접 하드웨어 접근 가능
- 오픈소스 기여: MaxText 레퍼런스 구현, 강화학습용 Tunix 등으로 개발에서 프로덕션 배포까지의 핵심 경로 지원
대규모 전력 효율 설계
- 오늘날 데이터센터에서 칩 공급뿐 아니라 전력이 바인딩 제약 조건
- 전체 스택에 걸쳐 효율성을 최적화하며, 실시간 수요에 따라 전력 소비를 동적 조정하는 통합 전력 관리 적용
- TPU 8t와 TPU 8i 모두 이전 세대(Ironwood) 대비 와트당 성능 최대 2배 향상
- 효율성은 칩 수준 지표만이 아닌 실리콘에서 데이터센터까지의 시스템 수준 약속
- 네트워크 연결을 컴퓨팅과 동일 칩에 통합해 TPU 팟 내 데이터 이동의 전력 비용을 크게 절감
- 데이터센터도 TPU와 공동 설계, 5년 전 대비 전력 단위당 컴퓨팅 파워가 6배 향상
- 두 칩 모두 4세대 액체 냉각 기술로 지원, 공랭으로는 불가능한 성능 밀도 유지
- Axion 호스트부터 가속기까지 전체 스택을 보유함으로써 호스트와 칩을 독립 설계할 때는 불가능한 시스템 수준 에너지 효율 최적화 실현
에이전틱 시대를 위한 인프라
- 모든 주요 컴퓨팅 전환에는 인프라 혁신이 필요하며, 에이전틱 시대도 마찬가지
- 자율 에이전트가 추론·계획·실행·학습의 연속 루프를 수행하는 요구에 인프라가 진화해야 함
- TPU 8t와 TPU 8i는 이 과제에 대한 답변: 가장 뛰어난 AI 모델 구축, 완벽하게 오케스트레이션된 에이전트 스웜, 가장 복잡한 추론 작업 관리를 재정의하는 두 가지 특화 아키텍처
- 두 칩 모두 올해 하반기 일반 제공 예정
- Google의 AI Hypercomputer의 일부로 사용 가능
- 목적별 하드웨어(컴퓨팅, 스토리지, 네트워킹), 오픈 소프트웨어(프레임워크, 추론 엔진), 유연한 소비 모델(오케스트레이션, 클러스터 관리, 딜리버리 모델)을 통합 스택으로 결합
-
Homepage
-
Tech blog
- 에이전트 시대를 위한 두 개의 칩: Google의 8세대 TPU