실리콘은 강철보다 빠르게 움직이며 데이터 센터는 보조를 맞춰야 합니다.

원자력 추진 고속 공격 잠수함을 지휘하는 것부터 AWS, Meta 및 Oracle에서 하이퍼스케일 데이터 센터 프로젝트를 이끄는 것까지, Tony Grayson은 AI 인프라에 정밀성, 복원력 및 기술 전문 지식의 독특한 조화를 제공합니다.

현재 Northstar Federal & Northstar Enterprise & Defense의 사장 겸 총괄 책임자인 Grayson(위, 오른쪽)은 (는) 다음을 제공할 예정입니다. 시드니에서 열리는 Cloud & Datacenter Convention 2025의 주요 기조 연설, 강화 학습(RL) 컴퓨팅 및 에이전트 AI가 분산 컴퓨팅으로의 전환을 어떻게 주도하는지 살펴봅니다.

W.Media는 그와 함께 이러한 개발이 인프라 설계, 신속한 배포, 지속 가능성, 통신 및 클라우드 운영자의 미래 수요에 미치는 영향에 대해 논의했습니다.W.Media: 수백만 달러 규모의 계약을 체결하기 위해 회사를 구축하고 확장한 사람으로서, 오늘날 AI 인프라 투자를 계획하는 조직에 어떤 조언을 해주시겠습니까? 3~5년 동안 피벗, 엑시트 또는 기술 변화에 대한 유연성을 유지하기 위해 이러한 투자를 어떻게 구성해야 할까요?

Grayson: NorthStar와 EdgePoint Systems를 확장한 경험에 따르면 AI의 급격한 변화에 발맞추려면 모든 계층에 민첩성을 내장해야 합니다. 먼저 모놀리식 방식보다 모듈식, 점진적 구축을 사용합니다. 모듈식 데이터 센터(MDC)는 하이퍼스케일의 경우 18~24개월 및 MW당 US$12~15m에 비해 MW당 ~US$7~9m(미국/호주 평균)로 3~9개월 만에 배포됩니다. 이를 통해 하드웨어 새로 고침 주기로 인한 과잉 프로비저닝 및 좌초된 용량을 방지할 수 있습니다. 설계를 레고 블록이라고 생각하십시오. 대량 맞춤화를 위해 구성 요소를 표준화하는 동시에 유지 관리성을 보장합니다.

MDC는 또한 6~18개월의 허가 지연을 우회하는 데 도움이 됩니다. 조립식 건물은 현장 일정을 50~70% 단축하고 완전한 환경 검토를 피할 수 있으므로 PJM의 다년 백로그와 같은 그리드 대기열 지연을 피하기 위해 변전소 근처의 브라운필드 개조 또는 엣지 사이트를 사용할 수 있습니다. 둘째, 잠금을 방지하기 위해 공급업체에 구애받지 않는 하이브리드/멀티 클라우드 아키텍처를 선택합니다. NVIDIA, AMD, Groq 및 ONNX와 같은 표준을 수용합니다. 엑시트 또는 피벗을 지원하기 위해 MDC에 대한 Opex 임대를 고려하십시오.

셋째, 분산 강화 학습(RL) 및 에이전트 AI와 같은 새로운 기술에 20~30%의 예산을 책정합니다. RL은 대기 시간을 10ms 미만으로 줄일 수 있으며 McKinsey에 따르면 에이전트 AI는 2030년까지 US$500억(45% CAGR)에 도달할 수 있습니다. 시나리오 계획 프레임워크를 사용하여 “가상” 시나리오를 매핑하고 2030년까지 AI 지출의 60~80%(US$2,540억, 17.5% CAGR)로 예상되는 추론 중심 워크로드를 계획합니다. 마지막으로 모든 투자를 ROI에 연결합니다. MDC는 구축 비용을 40~60% 절감하고 더 빠른 배포를 통해 수익을 가속화할 수 있습니다. 기술만으로는 수익을 창출하지 못하고 적응 가능한 인프라가 수익을 창출한다는 점을 기억하십시오.W.Media: “실리콘은 강철과 콘크리트보다 빠르게 움직인다”는 점을 강조하신 점을 감안할 때 조직은 장기 인프라 투자와 실리콘이 12~24개월마다 새로 고쳐진다는 현실 사이에서 어떻게 균형을 맞춰야 할까요? 이러한 역설에 가장 적합한 계획 프레임워크는 무엇일까요?

Grayson: “실리콘은 강철과 콘크리트보다 빠르게 움직인다”는 문구는 AI 인프라에서 가장 큰 과제를 요약합니다. 하드웨어는 12~24개월마다 새로 고쳐지는데, 이는 기존 데이터 센터 구축 주기보다 훨씬 빠르며, 주의하지 않으면 수백만 달러의 좌초된 자산이 남을 수 있습니다. 핵심은 인프라를 단일 세대의 실리콘에서 분리하는 것입니다. 이는 Hopper 또는 Grace Blackwell 시스템의 경우 전력 밀도가 800kW에서 1.5MW로 높아지는 Rubin 시대에 접어들면서 더욱 중요해지고 있습니다. 이러한 랙은 오늘날보다 두 배나 무거울 수 있습니다.

제가 사용한 한 가지 방법은 전체 사이트를 중단하지 않고 업그레이드할 수 있는 포드로 인프라를 분리하는 “모듈식 새로 고침 주기”입니다. NorthStar에서 당사의 모듈식 데이터 센터는 30~132kW의 랙을 지원하고 고급 액체 냉각을 사용하므로 필요에 따라 새로운 실리콘을 넣고 뺄 수 있습니다. 18~24개월의 기간을 계획하지만 모듈성이 제공하는 20~30%의 Opex 절감을 고려하여 5년 수명 주기에 걸쳐 모델링합니다. 실리콘 가격 변동에 대한 몬테카를로 시뮬레이션과 새로 고침 영향에 대한 민감도 분석과 같은 프레임워크를 사용하여 이러한 불확실성을 탐색합니다.

경쟁 환경도 변화하고 있습니다. NVIDIA는 CUDA를 통해 트레이닝을 지배하고 있지만 AMD의 MI400X는 추론에서 도전하고 있으며 Groq와 같은 맞춤형 실리콘은 더욱 최적화할 수 있습니다. RL 트레이닝(Grok 4에서와 같이)은 분산 컴퓨팅을 선호하여 중앙 집중화 필요성을 줄입니다.

저희는 오늘날 GPU에 중점을 두고 있지만 미래는 CPU와 GPU가 필요에 따라 메모리를 풀링할 수 있는 CXL(Compute Express Link)을 사용하는 분리된 아키텍처입니다. 기존 GPU는 HBM을 각 칩에 연결하여 좌초된 용량과 30% 더 높은 스위치 비용을 발생시킵니다. CXL은 와트당 30% 더 나은 성능을 제공하고 총 비용을 20~30% 절감합니다. 저는 CXL 풀링된 가속기를 실행하는 MDC가 GPU 전용 설정보다 처리량을 25% 향상시키는 것을 보았으며 ONNX와 같은 개방형 프레임워크는 공급업체 잠금을 방지하는 데 도움이 됩니다.

각 기술 웨이브(GPU, 분산 RL, 양자(특수 차폐 시설이 필요할 수 있음))는 서로 다른 인프라를 요구합니다. 20~30년의 고객 수명 주기에 대한 기존 데이터 센터 가정은 사라졌습니다. AI는 너무 빠르게 움직이며 3~5년의 노후화 위험을 감수하도록 설계해야 합니다. 모듈성과 유연한 Opex 모델은 강철과 콘크리트를 감옥이 아닌 기초 역할을 하도록 유지합니다.W.Media: 최근 기사에서 대규모 AI 인프라를 구축하기 전에 “어떻게 돈을 벌 것인가?”라고 업계에 질문했습니다. 예측할 수 없는 AI 워크로드 요구 사항을 계획할 때 조직은 어떤 구체적인 재무 지표와 ROI 모델을 사용해야 할까요?

Grayson: 문제는 다음과 같습니다. 언어 모델은 클라우드 서비스 제공업체 또는 네오 클라우드가 아닌 한 본질적으로 수익을 창출하지 않으며 추론이 수익이 발생하는 곳입니다. Capex가 중요하지만 Opex는 지속 가능성을 결정합니다. 워크로드 예측 불가능성 속에서 계획하려면 가치 창출에 직접 연결되는 지표에 집중해야 합니다.

추적해야 할 주요 지표에는 Groq LPUs와 같은 맞춤형 실리콘을 통해 추론당 TCO를 우선 순위로 지정하여 최대 50배 더 많은 수익을 창출할 수 있습니다(H100에 해당하는 랙당 US$310/일과 비교하여 랙당 US$15,500/일). MDC의 경우 1.2 미만, 기존 사이트의 경우 1.5+인 PUE로 전력 사용 효율성을 모니터링합니다. MW당 capex를 추적합니다. 모듈식 구축은 기존 방식보다 상당한 비용 이점을 제공합니다. 유연하지 않은 구축의 경우 US$1억~5억 달러에 이를 수 있는 좌초된 용량 위험을 주시합니다.

Groq는 H100에서 약 2,000개에 비해 100,000개 이상의 토큰/초를 제공할 수 있으며 에너지 효율성은 토큰/초/kW로 측정된다는 점을 잊지 마십시오.

ROI 모델의 경우 “단계별 투자 회수” 방식을 구현합니다. 5년 동안 내부 수익률을 계산합니다. NVIDIA B200 GPU가 장착된 1MW MDC의 경우 25% 이상을 원하며 이는 AI 서비스에서 US$340만 달러의 마진을 창출할 수 있습니다. 미래 현금 흐름을 할인하기 위해 순현재가치를 사용하여 2030년까지 US$2,540억으로 예상되는 추론 시장의 17.5% CAGR을 고려합니다. 기회 비용을 고려합니다. 더 빠른 모듈식 배포는 지연된 수익에서 수백만 달러를 절약할 수 있습니다.

불확실성의 경우 예상되는 60~80%의 추론 우위 및 실리콘 가격 변동과 같은 워크로드 변화에 대한 몬테카를로 시뮬레이션을 활용합니다. H100 요금은 시간당 US$4에서 약 US$0.9로 떨어졌습니다.

시나리오 기반 ROI가 필수적입니다. 기본 사례는 중앙 집중식 트레이닝을 가정하고 낙관적인 사례는 분산 RL이 비용을 35% 절감하는 것을 고려하고 비관적인 사례는 20%의 용량 좌초를 고려합니다. 항상 모든 것을 수익 기본 사항에 근거하십시오. 토큰당 달러 또는 쿼리당 달러 수익률은 얼마입니까? 맞춤형 칩은 종종 추론당 10~25배 더 나은 비용을 제공하므로 상품화에 대한 확실한 헤지입니다.W.Media: 기존의 기가 캠퍼스 방식보다 모듈식 데이터 센터를 강력하게 옹호하셨습니다. 조직이 모듈성이 적합한 시기와 규모 경제가 더 크고 중앙 집중식 인프라를 선호하는 시기를 결정하기 위해 사용해야 하는 주요 결정 기준은 무엇일까요?

Grayson: 민첩성이 원시 규모 경제보다 중요한 경우 모듈성이 뛰어납니다. 솔직히 말해서 저는 순수한 규모가 항상 필요한지 회의적입니다. AI 가속기는 약 6개월마다 PFLOPS가 두 배로 증가하여 데이터 부족 속에서 토큰 볼륨이 정체될 수 있는 반면 RL 컴퓨팅은 배포를 향해 나아가고 있습니다.

비용 및 위험 관점에서 모듈성은 MW당 US$1,000만 미만으로 35~60% TCO 절감 효과를 제공하여 기술 변화로 인한 US$1억 달러 이상의 좌초된 자산을 방지합니다. 중앙 집중식 인프라는 100MW 이상의 규모에서 초저 US$/kWh에 적합하지만 더 높은 초기 위험을 수반합니다. 워크로드 유형도 중요합니다. Grok 4와 같은 엣지 추론 및 분산 RL은 10ms 미만의 대기 시간을 위해 MDC를 선호하는 반면 대규모 사전 트레이닝은 여전히 하이퍼스케일의 대역폭과 밀도를 요구합니다. 확장성도 중요한 역할을 합니다. 변동성이 큰 수요에는 점진적인 포드 추가를 선택하고 예측 가능하고 대량 트레이닝에는 중앙 집중식을 선택합니다.

지속 가능성 및 주권에 따라 MDC는 재생 에너지를 더 쉽게 통합하여 우수한 PUE 성능과 40~60% 적은 내장 CO2를 달성하고 데이터 지역성을 지원합니다. 모듈성은 조립식, 재활용 자재 및 폐기물 감소를 통해 기존 구축보다 20~30% 낮은 내장 탄소를 달성할 수 있습니다.

지리적 위치가 종종 결정하므로 대기 시간에 민감한 애플리케이션에는 엣지 또는 지역 모듈성을 선택하고 에너지 풍부 지역의 대량 컴퓨팅에는 중앙 집중식을 선택합니다. 종종 하이퍼스케일을 보완하는 MDC가 있는 하이브리드 모델이 최상의 균형을 이룹니다. 모듈식 접근 방식은 간소화된 허가 프로세스를 통해 배포 이점도 제공합니다.W.Media: 기존 GPU보다 50배 이상 높은 수익 잠재력을 보여주는 칩을 통해 조직은 “승자”가 여전히 불분명한 경우 서로 다른 실리콘 아키텍처(NVIDIA, AMD, Groq, AWS Inferentia)에서 어떻게 베팅을 헤지해야 할까요?

Grayson: Groq의 맞춤형 칩이 50배 수익 엣지를 입증하고 AMD의 MI300X가 추론에서 견인력을 얻으면서 헤징은 스택에 불가지론을 구축하는 것입니다. 토지 취득 및 허가 타임라인이 피벗을 방해할 수 있으므로 즉각적인 필요에만 배포하십시오. 아키텍처 간에 빠르게 교체할 수 있도록 설계를 표준화하고 명확한 업그레이드 경로가 있는지 확인하십시오. 다용성을 위해 그린필드 및 브라운필드 사이트를 모두 지원합니다. NorthStar에서 당사의 MDC는 유연한 30~132kW+ 랙 및 ONNX 호환성을 통해 NVIDIA, AMD, Groq 및 AWS Inferentia를 수용합니다.

새로 고침 전략은 12~18개월 주기에 맞춰야 하며 MDC는 가동 중지 시간 없는 롤아웃을 허용합니다. 베타 및 공동 개발 기회에 액세스하고 생태계 변화를 모니터링하기 위해 파트너십을 다양화합니다. 트레이닝에서 NVIDIA의 CUDA 우위는 효율성이 일반성을 능가하는 추론에서는 유지되지 않을 수 있습니다. 2025년 6월에 출시된 AMD의 개발자 클라우드는 좋은 예입니다. ROCm 7 개선 사항, 2025년에 이전 세대보다 최대 35배 더 나은 추론을 제공하는 MI350X, 2026년에 MI400X는 NVIDIA의 DGX 클라우드에 필적하는 공격적인 가격 책정 및 개방형 생태계를 제공합니다. 이를 통해 추론에 대한 대안이 가속화되고 달러당 40% 더 많은 토큰을 제공하여 TCO를 낮출 수 있습니다.W.Media: 원자력 잠수함 배경과 엣지 AI 워크로드에 SMR 및 마이크로 원자로를 사용하는 것에 대한 자문 작업을 감안할 때 데이터 센터 인프라, 특히 미션 크리티컬 및 탄소 없는 AI 배포의 미래에서 원자력 발전이 어떤 역할을 할 것이라고 보십니까? DC 운영자는 그동안 재생 에너지를 어떻게 봐야 할까요?

Grayson: 제 원자력 잠수함 지휘 및 SMR 자문 역할에서 볼 때 원자력은 특히 엣지에서 탄력적이고 탄소 없는 AI 인프라에 혁신적일 것입니다. SMR 및 마이크로 원자로는 2035년까지 MDC에 전력을 공급할 수 있으며 이는 마케팅과는 매우 다르며 주권적이고 미션 크리티컬한 배포를 위한 기저부하 에너지를 제공합니다. 현실적으로 타임라인은 다릅니다. Gen III+ 원자로(수동 냉각 포함)는 지금 배포할 수 있으며 마이크로 원자로는 2027-2028년까지 규모에 도달할 수 있는 반면 Gen IV는 설계 승인, 테스트 및 연료 소싱에 어려움을 겪고 있습니다.

2035년까지 10MW 랙이 오늘날의 3GW PFLOPS와 동일하여 원자력의 매력을 증폭시킬 수 있습니다. 그동안 재생 에너지를 중요한 다리로 취급하십시오. 안정성을 위해 배터리 및 마이크로그리드로 강화된 MDC 에너지 믹스의 40% 이상에 태양열/풍력을 통합합니다. 신뢰할 수 있는 백업으로 천연 가스를 탐색하십시오. 수소의 잠재력은 예상보다 느리지만 여전히 남아 있습니다. 이 하이브리드 경로는 가동 시간을 저해하지 않고 탄소 목표를 보장합니다. PUE를 넘어선 지속 가능성 지표: 재생 에너지를 보완하기 위해 모듈성을 통한 내장 탄소 감소(20-30% 낮음) 및 물 효율성을 고려하십시오. AI는 2027년까지 전 세계적으로 42억~66억 입방미터를 요구할 수 있지만 MDC의 폐쇄 루프 액체 냉각은 물의 90~95%를 재활용하여 쿼리당 1~5리터 소비를 해결합니다.W.Media: Grok 4의 분산 강화 학습 접근 방식이 배포 모델을 변경할 수 있다고 언급하셨습니다. 조직은 중앙 집중식 하이퍼스케일러 의존성에서 보다 분산된 엣지 중심 AI 아키텍처로의 잠재적인 전환에 어떻게 대비해야 할까요?

Grayson: Grok 4는 트레이닝 균형에서 큰 변화를 보였습니다. 이전 LLM은 주로 사전 트레이닝에 중점을 두었고 인간 피드백(RLHF)에서 약간의 강화 학습만 있었습니다. Grok 4는 Grok 2보다 총 컴퓨팅을 약 100배 더 많이 사용했으며 사전 트레이닝과 RL 간에 동일하게 분할하여 Humanity’s Last Exam과 같은 벤치마크에서 최첨단 결과를 제공했습니다. RLHF는 모델의 추론 깊이를 향상시키고 에이전트가 답변을 토론하거나 추론 경로를 시뮬레이션하는 Grok 4의 다중 에이전트 RL은 낮은 대기 시간, 엣지 중심 사용 사례에 대한 강력한 성능을 보여주었습니다.

모놀리식 클러스터가 필요한 사전 트레이닝과 달리 RL 워크로드는 더 병렬적이고 대기 시간에 더 관대합니다. 워크플로는 롤아웃 작업자(출력 생성), 평가 노드(출력 점수 매기기) 및 학습자 노드(매개변수 업데이트)의 세 가지 역할로 나뉩니다. 롤아웃 작업자와 평가자는 수십에서 수백 밀리초의 대기 시간을 처리하고 구형 또는 상품 하드웨어에서 실행할 수 있는 반면 GRPO와 같은 새로운 방법은 노드 간 통신을 줄이고 별도의 비평가 모델을 제거하여 TCO를 10~20% 낮춥니다.

INTELLECT-2의 데모에서는 32B 매개변수 RL 설정이 응답 시간을 15% 줄이고 실패한 요청을 24% 줄였습니다. 최대 10-30B 매개변수의 모델은 단일 GPU에서 전체 RLHF를 실행할 수 있는 반면 70B+ 모델조차도 openRLHF, TBA 및 Ray RLlib와 같은 프레임워크를 사용하여 더 저렴한 리소스에 분산할 수 있습니다.

준비하려면 OpenRLHF 또는 GRPO와 같은 프레임워크를 사용하여 <10ms 평가를 위해 Edge MDC에 투자하십시오. 지역 포드에서 분산 RL 워크플로를 시범 운영합니다(잠재적으로 TCO를 35% 절감). 주권 및 비용 절감을 위해 RL/추론을 엣지로 전환하는 동안 사전 트레이닝을 위해 하이퍼스케일을 유지하는 하이브리드 전략을 채택합니다. 신속한 적응을 위해 연합 학습 및 공급업체에 구애받지 않는 설계를 사용하여 툴링을 구축합니다.W.Media: 호주 데이터 센터 운영자는 미국에서 산업이 발전하는 방식에서 어떤 교훈을 얻을 수 있을까요?

Grayson: 호주 통신사들은 과잉 구축으로 자산이 좌초되는 등 미국의 실패 사례를 주의하고, 대신 뛰어난 민첩성을 위해 모듈식/에지 모델로 전환해야 합니다. 신속한 구축을 위해 모듈식 접근 방식을 채택하고, 재생 에너지를 통한 지속 가능성을 강화하며, RL/추론에 집중하십시오. 실리콘 변동성을 헤지하기 위해 공급업체에 구애받지 않는 포드를 사용하십시오. 로컬 에지 인프라를 통해 주권 AI를 강조하십시오.

미국의 핵심 교훈은 AI의 급격한 진화 속에서 대량보다 모듈성을 우선시해야 한다는 것입니다. 실리콘과 보조를 맞추고 쓸모없는 모놀리스를 피하기 위해 적응 가능한 분산 시스템을 구축하십시오. 유연성이야말로 궁극적인 장점입니다. 호주 통신사의 경우 이는 금융 안정 및 데이터 보호를 위한 APRA 규정 준수와 국경 간 운영을 위한 GDPR과 같은 글로벌 표준을 우선시하는 것을 의미합니다. 분산형 RL 설정에서는 에지 환경에서 위협으로부터 보호하기 위해 제로 트러스트 아키텍처 및 암호화된 연합 학습과 같은 사이버 강화 기능을 통합하여 성능 저하 없이 주권을 보장합니다.W.Media: 시드니 기조 연설에서 참석자들이 얻어가기를 바라는 교훈은 무엇입니까?

Grayson: AI 인프라의 미래는 예측할 수 없습니다. 시장 변화가 빠르게 수익을 잠식할 수 있는 배포에서 장기적인 설비 투자를 최소화하면서 신속하게 전환할 수 있는 민첩성을 키우십시오. 모듈성은 단순한 전술이 아니라 불확실성 속에서 번성하기 위한 원칙입니다.이벤트 정보: Sydney International Convention Centre, 2025년 8월 21일, 오전 8시 00분~오후 8시 30분.

여기에서 등록하세요: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/

 

Publish on W.Media
Author Info:
Picture of Simon Dux
Simon Dux
Share This Article
Related Posts
Other Popular Posts
Expert Speak [KO]
Southeast Asia News [KO]