Meta의 오픈 AI 하드웨어 비젼

2 weeks ago 9

메타, Open Compute Project (OCP) Global Summit 2024에서 최신 AI 하드웨어 디자인을 공개

  • 새로운 AI 플랫폼, 최첨단 오픈 랙 디자인, 고급 네트워크 패브릭 및 구성 요소 등의 혁신 기술 쇼케이스 진행
  • 디자인을 공유함으로써 협업을 장려하고 혁신을 촉진하고자 함

메타의 AI 모델링 혁신과 인프라 발전

  • 메타는 수년 동안 AI 모델링 혁신을 통해 피드 및 광고 시스템 등의 기능을 최적화하고 개선해 왔음
  • 새롭고 진보된 AI 모델을 개발하고 출시함에 따라 새로운 AI 워크로드를 지원하기 위한 인프라 발전에도 주력하고 있음
  • 예를 들어, Llama 3.1 405B 모델을 훈련시키기 위해 전체 훈련 스택에 상당한 최적화를 수행했으며, 16,000개 이상의 NVIDIA H100 GPU에서 운영할 수 있게 됨
  • 2023년 동안 훈련 클러스터를 1K에서 16K GPU로 빠르게 확장했으며, 현재는 24K-GPU 클러스터에서 모델을 훈련시키고 있음
  • AI 훈련에 필요한 컴퓨팅 양이 앞으로도 크게 증가할 것으로 예상됨

AI 클러스터 구축을 위한 네트워킹과 대역폭의 중요성

  • GPU 외에도 네트워킹과 대역폭이 클러스터 성능 보장에 중요한 역할을 함
  • 메타의 시스템은 HPC 컴퓨팅 시스템과 GPU 및 도메인 특화 가속기를 연결하는 고대역폭 컴퓨팅 네트워크로 구성됨
  • 앞으로 가속기당 초당 테라바이트 수준의 인젝션 대역폭 증가가 예상되며, 이는 오늘날 네트워크 대비 10배 이상 성장한 수치임
  • 이를 지원하기 위해 고성능, 다계층, 비차단 네트워크 패브릭이 필요하며, 이를 통해 AI 클러스터의 잠재력을 최대한 활용할 수 있음

오픈 하드웨어를 통한 AI 확장성 확보

  • AI를 이 속도로 확장하려면 오픈 하드웨어 솔루션이 필요함
  • 개방성의 원칙에 기반한 새로운 아키텍처, 네트워크 패브릭 및 시스템 설계 개발이 가장 효율적이고 영향력 있음
  • 오픈 하드웨어에 투자함으로써 AI의 잠재력을 최대한 발휘하고 AI 분야의 지속적인 혁신을 추진할 수 있음

AI 인프라를 위한 오픈 아키텍처 "Catalina" 소개

  • 메타는 AI 워크로드용 고성능 랙인 Catalina의 출시 예정을 OCP 커뮤니티에 발표함
  • Catalina는 NVIDIA Blackwell 플랫폼 전체 랙 규모 솔루션을 기반으로 하며, 모듈성과 유연성에 중점을 둠
  • 최신 NVIDIA GB200 Grace Blackwell 슈퍼칩을 지원하도록 설계되어 현대 AI 인프라의 성장하는 요구 사항을 충족시킴
  • GPU의 전력 요구 사항 증가로 인해 오픈 랙 솔루션은 더 높은 전력 기능을 지원해야 함
  • Catalina에서는 최대 140kW를 지원할 수 있는 Orv3 고출력 랙(HPR)을 도입함
  • 솔루션은 완전히 액체 냉각되며 다양한 구성 요소들로 이루어짐
  • Catalina의 모듈식 설계는 특정 AI 워크로드에 맞게 랙을 사용자 정의할 수 있게 해줌

Grand Teton 플랫폼의 AMD 가속기 지원

  • Grand Teton은 메타의 차세대 AI 플랫폼으로, 메모리 대역폭 바인딩 워크로드와 컴퓨팅 바인딩 워크로드의 요구 사항을 모두 지원하도록 설계됨
  • 이제 Grand Teton 플랫폼이 AMD Instinct MI300X를 지원하도록 확장되었으며, 이 새로운 버전을 OCP에 기부할 예정임
  • Grand Teton은 이전 버전과 마찬가지로 단일 모놀리식 시스템 설계를 특징으로 하며, 전원, 제어, 컴퓨팅 및 패브릭 인터페이스가 완전히 통합되어 있음
  • AMD Instinct MI300x를 비롯한 다양한 가속기 설계를 지원할 뿐만 아니라 더 큰 컴퓨팅 용량, 확장된 메모리, 증가된 네트워크 대역폭을 제공함

오픈 분리형 예약 패브릭(DSF, Disaggregated Scheduled Fabric)

  • AI 훈련 클러스터의 성능을 계속 향상시키기 위해서는 개방형 벤더 중립 네트워킹 백엔드 개발이 중요한 역할을 할 것임
  • 네트워크를 분리하면 업계 전반의 공급업체와 협력하여 혁신적이고 확장 가능하며 유연하고 효율적인 시스템을 설계할 수 있음
  • 메타의 차세대 AI 클러스터용 새로운 DSF는 기존 스위치에 비해 여러 가지 장점을 제공함
  • DSF는 개방형 OCP-SAI 표준과 메타 자체 네트워크 운영 체제인 FBOSS에 의해 구동됨
  • NVIDIA, Broadcom, AMD 등 여러 공급업체의 여러 GPU 및 NIC에 걸쳐 엔드포인트 및 가속기에 대한 개방형 및 표준 이더넷 기반 RoCE 인터페이스를 지원함
  • DSF 외에도 Broadcom 및 Cisco ASIC을 기반으로 하는 새로운 51T 패브릭 스위치를 개발 및 구축했으며, 메타 최초의 자체 설계 네트워크 ASIC이 포함된 FBNIC라는 새로운 NIC 모듈을 공유하고 있음

메타와 마이크로소프트의 개방형 혁신 추진 협력

  • 메타와 마이크로소프트는 OCP 내에서 오랜 파트너십을 맺고 있으며, 2018년 데이터 센터용 스위치 추상화 인터페이스(SAI) 개발에서 시작됨
  • 오픈 가속기 모듈(OAM) 표준 및 SSD 표준화 등 주요 이니셔티브에 기여해 왔음
  • 현재 두 회사의 협력은 새로운 분리형 전원 랙인 Mount Diablo에 초점을 맞추고 있음
  • Mount Diablo는 효율성과 확장성을 높이는 확장 가능한 400VDC 장치를 특징으로 하는 최첨단 솔루션으로, AI 인프라를 크게 발전시킴

AI 인프라의 개방형 미래

  • 메타는 오픈 소스 AI에 전념하고 있으며, 오픈 소스가 전 세계 사람들의 손에 AI의 혜택과 기회를 제공할 것이라고 믿음
  • 협업 없이는 AI가 그 잠재력을 실현할 수 없을 것임
  • 모델 혁신을 주도하고 이식성을 보장하며 AI 개발의 투명성을 증진하기 위해 오픈 소프트웨어 프레임워크가 필요함
  • 집단 전문 지식을 활용하고 AI를 더 접근하기 쉽게 만들며 시스템의 편향을 최소화하기 위해 개방형 및 표준화된 모델에 우선순위를 두어야 함
  • AI 발전에 필요한 고성능, 비용 효율적이고 적응성 있는 인프라를 제공하기 위해서는 개방형 AI 하드웨어 시스템도 필요함
  • AI 하드웨어 시스템의 미래 발전에 기여하고자 하는 사람은 누구나 OCP 커뮤니티에 참여할 것을 권장함
  • AI의 인프라 요구 사항을 함께 해결함으로써 모든 사람을 위한 개방형 AI의 진정한 약속을 실현할 수 있음

GN⁺의 의견

  • 여러 GPU와 NIC 공급업체를 아우르는 개방형 네트워크 기술을 통해 벤더 종속성을 극복하고 AI 훈련 클러스터의 확장성과 유연성을 높일 수 있음
  • 메타와 마이크로소프트의 협력은 개방형 AI 인프라 혁신을 가속화하는 데 주요한 역할을 할 수 있음. 양사가 OCP를 통해 오랫동안 쌓아온 파트너십을 바탕으로 새로운 표준과 솔루션 개발에 박차를 가할 것으로 기대됨
  • 오픈 소스 AI에 대한 메타의 강력한 지지는 고무적임. 오픈 소스야말로 AI의 잠재력을 민주화하고 사회 전반에 걸쳐 AI의 기회를 확대하는 길임
  • 개방형 AI 인프라를 구축하는 과정에서 투명성과 설명 가능성, 윤리적 고려 사항 등도 함께 다뤄져야 할 것임. 기술 발전 못지않게 AI에 대한 사회적 신뢰 구축이 중요함
  • AI 하드웨어와 소프트웨어 생태계가 함께 성장해 나가기 위해서는 산업계 전반의 협력과 더불어 학계, 정책 입안자 등 다양한 이해관계자의 참여가 필수적임. OCP가 이를 위한 핵심 플랫폼이 되기를 기대함

Read Entire Article