Meta의 오픈 AI 하드웨어 비젼

2 weeks ago 9

메타, Open Compute Project (OCP) Global Summit 2024에서 최신 AI 하드웨어 디자인을 공개

메타는 수년 동안 AI 모델링 혁신을 통해 피드 및 광고 시스템 등의 기능을 최적화하고 개선해 왔음
새롭고 진보된 AI 모델을 개발하고 출시함에 따라 새로운 AI 워크로드를 지원하기 위한 인프라 발전에도 주력하고 있음
예를 들어, Llama 3.1 405B 모델을 훈련시키기 위해 전체 훈련 스택에 상당한 최적화를 수행했으며, 16,000개 이상의 NVIDIA H100 GPU에서 운영할 수 있게 됨
2023년 동안 훈련 클러스터를 1K에서 16K GPU로 빠르게 확장했으며, 현재는 24K-GPU 클러스터에서 모델을 훈련시키고 있음
AI 훈련에 필요한 컴퓨팅 양이 앞으로도 크게 증가할 것으로 예상됨

Grand Teton은 메타의 차세대 AI 플랫폼으로, 메모리 대역폭 바인딩 워크로드와 컴퓨팅 바인딩 워크로드의 요구 사항을 모두 지원하도록 설계됨
이제 Grand Teton 플랫폼이 AMD Instinct MI300X를 지원하도록 확장되었으며, 이 새로운 버전을 OCP에 기부할 예정임
Grand Teton은 이전 버전과 마찬가지로 단일 모놀리식 시스템 설계를 특징으로 하며, 전원, 제어, 컴퓨팅 및 패브릭 인터페이스가 완전히 통합되어 있음
AMD Instinct MI300x를 비롯한 다양한 가속기 설계를 지원할 뿐만 아니라 더 큰 컴퓨팅 용량, 확장된 메모리, 증가된 네트워크 대역폭을 제공함

AI 훈련 클러스터의 성능을 계속 향상시키기 위해서는 개방형 벤더 중립 네트워킹 백엔드 개발이 중요한 역할을 할 것임
네트워크를 분리하면 업계 전반의 공급업체와 협력하여 혁신적이고 확장 가능하며 유연하고 효율적인 시스템을 설계할 수 있음
메타의 차세대 AI 클러스터용 새로운 DSF는 기존 스위치에 비해 여러 가지 장점을 제공함
DSF는 개방형 OCP-SAI 표준과 메타 자체 네트워크 운영 체제인 FBOSS에 의해 구동됨
NVIDIA, Broadcom, AMD 등 여러 공급업체의 여러 GPU 및 NIC에 걸쳐 엔드포인트 및 가속기에 대한 개방형 및 표준 이더넷 기반 RoCE 인터페이스를 지원함
DSF 외에도 Broadcom 및 Cisco ASIC을 기반으로 하는 새로운 51T 패브릭 스위치를 개발 및 구축했으며, 메타 최초의 자체 설계 네트워크 ASIC이 포함된 FBNIC라는 새로운 NIC 모듈을 공유하고 있음

메타와 마이크로소프트는 OCP 내에서 오랜 파트너십을 맺고 있으며, 2018년 데이터 센터용 스위치 추상화 인터페이스(SAI) 개발에서 시작됨
오픈 가속기 모듈(OAM) 표준 및 SSD 표준화 등 주요 이니셔티브에 기여해 왔음
현재 두 회사의 협력은 새로운 분리형 전원 랙인 Mount Diablo에 초점을 맞추고 있음
Mount Diablo는 효율성과 확장성을 높이는 확장 가능한 400VDC 장치를 특징으로 하는 최첨단 솔루션으로, AI 인프라를 크게 발전시킴

여러 GPU와 NIC 공급업체를 아우르는 개방형 네트워크 기술을 통해 벤더 종속성을 극복하고 AI 훈련 클러스터의 확장성과 유연성을 높일 수 있음
메타와 마이크로소프트의 협력은 개방형 AI 인프라 혁신을 가속화하는 데 주요한 역할을 할 수 있음. 양사가 OCP를 통해 오랫동안 쌓아온 파트너십을 바탕으로 새로운 표준과 솔루션 개발에 박차를 가할 것으로 기대됨
오픈 소스 AI에 대한 메타의 강력한 지지는 고무적임. 오픈 소스야말로 AI의 잠재력을 민주화하고 사회 전반에 걸쳐 AI의 기회를 확대하는 길임
개방형 AI 인프라를 구축하는 과정에서 투명성과 설명 가능성, 윤리적 고려 사항 등도 함께 다뤄져야 할 것임. 기술 발전 못지않게 AI에 대한 사회적 신뢰 구축이 중요함
AI 하드웨어와 소프트웨어 생태계가 함께 성장해 나가기 위해서는 산업계 전반의 협력과 더불어 학계, 정책 입안자 등 다양한 이해관계자의 참여가 필수적임. OCP가 이를 위한 핵심 플랫폼이 되기를 기대함