AI 시대를 위한 데이터 센터 재설계

때로는 변화가 너무 빠르게 일어나 따라잡기 어려울 때가 있습니다. 양보하지 않으면 힘든 장애물에 직면하게 됩니다. AI가 세상을 장악하기 시작하면서 GPU가 속도를 주도했지만 데이터 센터는 어려움을 겪었습니다. 일부는 출시 시간 요구 사항을 충족하지 못했고 다른 일부는 높은 비용을 지불했습니다.

몇 년 전을 되돌아보거나 오늘날의 표준 HPC 부하와 비교해 보면 AI 인프라 구축에 있어 극명한 차이를 확인할 수 있습니다. 강력한 성능에도 불구하고 일반적인 20~30kW 설정으로는 더 이상 AI 워크로드를 지원하기에 충분하지 않습니다.

오늘날의 데이터 센터가 한계에 도달하는 이유

최신 인기 B200인 GB 시리즈는 랙당 100~130kW를 사용하며, 세계는 새로운 벤치마크인 600kW Rubin Ultra를 충족하기 위해 경쟁하고 있습니다. 이제 평방미터당 20kW에서 600kW의 부하 범위를 살펴보겠습니다. 이는 본질적으로 1,500~2,000만 MW 데이터 센터를 1,000제곱미터의 화이트 스페이스로 압축하는 것입니다.

부동산 또는 환경적 관점에서 보면 긍정적인 변화처럼 보일 수 있습니다. 그러나 심각한 엔지니어링 및 운영상의 문제를 야기합니다. 운영 및 프로젝트 팀이 밤에 잠 못 이루게 하는 문제입니다. 다음은 몇 가지 과제입니다.

  • 부하 장력 또는 누출:

    100kW 랙에 권장되는 부하 장력은 평방미터당 2~3백 킬로입니다. 이는 단순히 그러한 무게를 지탱할 수 있는 라이저를 설계하기가 어렵다는 의미입니다. 결과적으로 냉각 파이프는 종종 바닥 위 또는 랙 위에 해결 방법으로 설치됩니다. 그러나 이것은 장기적이고 적응 가능한 솔루션이 아닙니다. 한 가지 문제를 해결하면 다른 문제가 발생하는 경향이 있으며 데이터 센터 가동 시간을 유지하는 것이 실제적인 문제가 됩니다.

  • 데이터 센터 확장:

    인프라가 더욱 조밀해짐에 따라 대규모 데이터 센터는 더 이상 토지를 최대한 활용할 수 없습니다. 이것은 더 작은 공간 내에서 더 높은 배포 밀도를 의미한다고 생각할 수 있지만 그렇지 않습니다. 정부 규제와 전기 엔지니어링의 한계로 인해 단일 사이트에 얼마나 많은 전력을 공급할 수 있는지 제한됩니다. 제 생각에는 데이터 센터의 “토지 사용 효율성”이 날마다 감소하고 있습니다.

  • 프로젝트 계획:

    이제 데이터 센터는 모든 솔루션을 지원할 수 있는 강력한 기계 및 토목 인프라가 필요합니다. 그러나 광범위한 용량 부하를 위해 설계하는 것은 경제적으로 이상적이지 않습니다. 예산이 크게 증가하고 ROI가 의심스러워집니다. 특히 저용량 배포가 동일한 고사양 공간을 차지하는 경우 더욱 그렇습니다.

  • 하드웨어 노후화:

    구식 하드웨어는 프로젝트 계획을 더욱 어렵게 만듭니다. 시스템 수명이 2~3년에 불과하기 때문에 데이터 센터는 이미 이전 문제로 어려움을 겪고 있습니다. 설상가상으로 향후 시스템은 이전 시스템과 호환되지 않아 재사용하거나 조정할 여지가 없습니다.

데이터 센터 스택 재고

이러한 모든 문제를 고려할 때 일반적인 데이터 센터의 4가지 주요 요소를 재고하고 재설계할 때입니다.

  • 통신:

    미래의 데이터 센터 네트워크는 매우 조밀해질 것입니다. 각 NVIDIA SuperPod에는 22km의 광학 장치가 필요할 수 있습니다. 단일 랙 크기의 사이드카와 72층 PCB가 있는 Rubin 보드에 최대 5,000개의 케이블이 있을 것으로 예상됩니다. 당신의 미트 미 룸 이것을 지원할 준비가 되셨습니까?

  • 전기:

    전력은 모든 시스템의 생명선입니다. 랙은 내장된 전력과 함께 도착하고 있으며 데이터 센터는 기존의 N 또는 2N 설정을 넘어서고 있습니다. 이제 시스템에는 홀수 개의 연결이 필요하므로 PDU, 버스바, ATS 또는 N(x) 변압기의 경우에도 중복성을 예측할 수 없습니다.

  • 아키텍처:

    각 새로운 반복에는 케이블 배출, 냉각 액체 네트워크, 하중 지지 고려 사항과 같은 변경 사항이 있습니다. 모든 구성 요소를 고려해야 하며 단일 오류가 나머지에 영향을 미치지 않아야 합니다. 데이터 센터는 최소한의 재설계로 HPC에서 차세대 AI로 확장되어야 합니다.

  • 기계:

    향후 2~3백 킬로 이상을 지원할 수 있는 라이저, 대규모 전력 및 네트워크 케이블용 플레넘 공간, 광범위한 냉각 인프라에 대한 허용은 프로젝트 팀에게 일상적인 과제입니다. 물리적 엔지니어링의 모든 측면을 고려해야 하며 모든 기계적 요구 사항을 충족해야 합니다.

 

*작성자는 Compute Nordic의 엔드 투 엔드 운영 및 전략을 담당합니다. 그는 인도와 노르웨이의 다양한 주요 DC 플레이어에서 약 13년의 경력을 가지고 있습니다.

**이 기사는 W.Media의 Cloud & Datacenters 매거진 9호에 처음 게재되었습니다. 아래 이미지를 클릭하고 22~23페이지로 이동하여 기사를 읽어보세요.

Publish on W.Media
Author Info:
Picture of Deborah Grey
Deborah Grey
Share This Article
Related Posts
Other Popular Posts
Northeast Asia News [KO]