45°C 냉각 설계로 데이터센터 물 사용량을 거의 0으로 줄임

13 hours ago 2
  • AI 서버의 전력 밀도가 커지면서 냉각이 데이터센터 비용과 물 사용의 핵심 병목이 됐고, NVIDIA는 Rubin 세대에서 냉각액을 최대 45°C로 운용하는 설계를 내세움
  • Rubin 세대 AI 인프라는 칩과 네트워킹 구성요소까지 팬 없이 식히는 100% 액체 냉각 구조로, 폐쇄 루프와 드라이 쿨러를 중심에 둠
  • 유리한 기후에서는 기존 냉각탑 기반 시스템이 쓰던 연간 메가와트당 약 260만 갤런의 물을 거의 0으로 줄여 최대 100% 절감할 수 있음
  • 45°C 냉각액은 칩에서 열을 흡수해 약 55°C로 나와도 검증된 동작 한계 안에 머물며, 서버는 차가운 공기에 덜 의존함
  • 완전 액체 냉각은 팬, 냉·열 통로, 공랭 인프라 공간을 줄이고 랙 밀도를 높여 AI 컴퓨팅 수요 증가에 따른 냉각 비용 부담을 낮추는 방향임

Rubin 세대의 100% 액체 냉각

  • NVIDIA의 최신 AI 서버는 냉각액을 최대 45°C, 즉 113°F까지 운용할 수 있음
  • Rubin 세대 NVIDIA AI 인프라는 모든 칩과 네트워킹 구성요소를 액체로 냉각하는 100% 액체 냉각을 달성함
    • 시스템 어디에도 팬이 없음
    • 냉각은 폐쇄 루프 안에서 이루어짐
  • 이 방식은 AI 팩토리 인프라 스택의 설계·구축·운영 모범 사례를 담은 NVIDIA DSX AI 팩토리 참조 설계에 포함됨
  • 각 세대가 와트당 컴퓨팅 성능을 높이는 가운데, 완전 액체 냉각 AI 컴퓨트 인프라는 하이퍼스케일 데이터센터의 냉각 에너지 소비를 크게 줄일 수 있음

물과 전력 사용을 줄이는 구조

  • NVIDIA DSX AI 팩토리 참조 설계는 물 소비 0을 목표로 하며, 큰 전력 사용과 거의 모든 물 사용을 줄이는 방향임
  • 드라이 쿨러 기반 설계는 폐쇄 루프 시스템이라 증발식 물 냉각을 쓰지 않음
    • 일부 기후에서는 연중 약 1% 정도만 칠러가 필요할 수 있음
  • 역사적으로 냉각은 데이터센터 전력 소비의 최대 40% 를 차지해 왔음
  • 업계 추정에 따르면 칠러 플랜트 온도를 1°C 올리면 냉각 에너지 비용을 약 4% 줄일 수 있음
  • 50MW급 하이퍼스케일 시설은 액체 냉각 인프라로 전환하면 냉각 관련 에너지와 물 비용을 연간 400만 달러 이상 절감할 수 있음
  • 유리한 기후에서 45°C 액체 냉각 아키텍처는 칠러 없는 운영을 가능하게 하며, 기존 냉각탑 기반 시스템의 연간 메가와트당 약 260만 갤런 물 사용을 거의 0으로 낮출 수 있음

차가운 데이터센터가 항상 효율적인 것은 아님

  • 업계에는 오랫동안 차가운 데이터센터가 효율적이라는 인식이 있었음
  • 실제 칩은 직관보다 훨씬 더 따뜻한 환경에서도 작동할 수 있음
  • 완전 액체 냉각 칩에 45°C 냉각액이 들어가면 칩 표면에서 열을 흡수해 약 55°C로 나옴
  • 이 과정에서도 성능은 저하되지 않음
    • 액체 냉각 콜드 플레이트가 장치 온도를 검증된 동작 한계 안에 유지함
    • 랙에 들어가는 냉각액이 45°C여도 프로세서는 최대 성능으로 계속 작동함
  • 서버가 차가운 공기에 의존하지 않기 때문에 데이터센터의 주변 공기 온도는 더 유연하게 설정될 수 있음

팬과 냉·열 통로가 줄어드는 서버 구조

  • 전통적인 데이터센터는 팬 소음과 냉·열 통로 관리에 크게 의존함
    • 냉각 팬은 전체 소음을 85dB 이상으로 높일 수 있음
    • 이 수준은 귀 보호 장비가 필요할 정도로 큼
  • Rubin 아키텍처는 냉각을 공기 흐름이 아니라 액체 루프 중심으로 바꿈
  • 냉각액은 물 75%와 프로필렌글리콜 25% 로 구성됨
  • 이 냉각액은 프로세서 위에 직접 놓인 콜드 플레이트를 지나며 열을 원천에서 흡수함
  • 냉각액을 최대 45°C로 운용하면 많은 기후에서 기계식 칠러와 시끄러운 팬 없이 시설 루프가 열을 배출할 수 있음
  • 적절한 지역에서는 냉각분배장치가 열을 원천에서 잡아 건물 밖의 대형 라디에이터 코일 형태인 드라이 쿨러로 보냄
    • 루프는 한 번 채워진 뒤 시설 수명 동안 폐쇄 상태로 운용됨
    • 전통적인 공랭 인프라보다 AI 팩토리 안에서 차지하는 공간이 크게 줄어듦

기후 조건과 폐열 활용

  • 지리적 조건은 중요한 제약임
    • Scottish Highlands의 데이터센터와 Phoenix, Arizona의 데이터센터는 서로 다른 냉각 현실을 가짐
  • 따뜻한 기후에서도 45°C 냉각액은 칠러 없는 운영에 더 가까워지게 함
    • 외부 공기 온도 때문에 필요한 며칠 동안만 칠러가 켜질 수 있음
  • 새로운 AI 팩토리 모델은 폐열 회수 가능성도 제공함
    • AI 팩토리 운영에서 남는 열을 근처 상업용 또는 주거용 건물 난방에 재사용할 수 있음

완전 액체 냉각을 위한 엔지니어링 변화

  • 이전 액체 냉각 서버는 하이브리드 구조였음
    • GPU와 CPU는 콜드 플레이트를 사용함
    • 나머지 시스템은 핀형 방열판과 공랭에 의존함
  • 완전 액체 냉각 서버에서는 이런 구성요소의 냉각 방식을 액체 기반으로 다시 설계해야 했음
  • NVIDIA의 열 엔지니어링 팀은 여러 고전력 칩에 액체를 공급하는 방식을 단순화함
    • 보드의 여러 칩에 단일 입구와 출구로 액체를 라우팅함
    • 더 깔끔한 트레이 수준 냉각 아키텍처가 됨
  • 서버 외형과 설치 밀도도 달라짐
    • Rubin 서버는 공랭 서버의 구멍 뚫린 베젤 대신 깨끗하고 밀폐된 전면 패널을 가짐
    • 완전 액체 냉각 서버는 공랭 서버보다 더 높은 랙 밀도를 가능하게 함
    • 이전에 6U를 차지하던 시스템이 2U에 들어가며, 더 많은 컴퓨팅을 더 적은 공간과 소음으로 제공함

AI 인프라 확장과 냉각 효율

  • AI 워크로드는 가벼워지고 있지 않음
  • 데이터센터 건설을 이끄는 컴퓨팅 수요는 거의 모든 인프라 투자 범주보다 빠르게 증가하고 있음
  • 컴퓨팅 냉각 방식의 효율 개선이 없으면 대규모 AI 운영의 에너지 비용은 하드웨어 증가와 함께 커짐
  • 최대 45°C 액체 냉각은 하드웨어 확장과 냉각 비용 사이의 격차를 줄이는 도구가 됨
Read Entire Article