슈퍼마이크로컴퓨터(Super Micro Computer, 이하 슈퍼마이크로)가 생성형 AI의 도입을 가속화하기 위한 슈퍼클러스터 포트폴리오를 22일 발표했다.
▲슈퍼마이크로 생성형 AI 슈퍼클러스터 솔루션 포트폴리오 확장(이미지:슈퍼마이크로)
엔터프라이즈부터 LLM 인프라 규모까지 확장
슈퍼마이크로컴퓨터(Super Micro Computer, 이하 슈퍼마이크로)가 생성형 AI의 도입을 가속화하기 위한 슈퍼클러스터 포트폴리오를 22일 발표했다.
슈퍼클러스터 솔루션 3종을 통해 생성형 AI 워크로드에 활용 가능하며, 4U 수냉식 냉각 시스템이나 8U 공냉식 냉각 시스템을 선택해 강력한 LLM 학습 성능은 물론 대규모 배치(Batch)와 대용량 LLM 추론용으로 사용할 수 있다. 1U 공냉식 슈퍼마이크로 엔비디아 MGXTM 시스템을 갖춘 슈퍼클러스터는 클라우드 규모 추론에 최적화돼 있다.
찰스 리앙(Charles Liang) 슈퍼마이크로 사장 겸 CEO는 “AI 시대에 컴퓨팅 단위는 단순히 서버 수가 아닌 클러스터로 측정된다”며 “슈퍼마이크로는 글로벌 제조량을 월 5,000개의 랙으로 확장해 그 어느 때보다 빠르게 완전한 생성형 AI 클러스터를 제공할 수 있다”고 자부했다.
찰스 리앙 CEO는 “확장 가능한 클러스터 빌딩 블록에 64노드 클러스터는 400Gb/s 엔비디아 퀀텀-2 인피니밴드 및 스펙트럼-X 이더넷 네트워킹을 갖춰 72TB의 HBM3e및 512개의 엔비디아 HGX H200 GPU를 지원한다”고 덧붙였다
이어서 “슈퍼마이크로의 슈퍼클러스터 솔루션은 엔비디아 AI 엔터프라이즈 소프트웨어와 결합했으며 그 결과 오늘날 최대 조 단위의 매개변수로 LLM을 학습하는 기업 및 클라우드 인프라에 이상적이다”이라면서 “상호 연결된 GPU, CPU, 메모리, 스토리지 및 네트워킹이 랙 내 여러 노드에 걸쳐 구축될 때 최신 AI를 구현할 수 있다”고 설명했다.
카우츠브 상하니(Kaustubh Sanghan) 엔비디아 GPU 제품 부문 부사장은 “엔비디아의 최신 기술은 시스템 제조사가 글로벌 시장을 위한 다양한 차세대 AI 워크로드를 가속화할 수 있도록 지원한다”며, “슈퍼마이크로는 블랙웰 아키텍처 기반 제품에 엔비디아 가속 컴퓨팅 플랫폼을 활용해 데이터센터에 쉽게 구축 가능한 최첨단 서버 시스템을 제공하고 있다”고 말했다.
슈퍼마이크로 4U 엔비디아 HGX H100/H200 8-GPU 시스템은 수냉식 냉각을 사용해 8U 공랭식 시스템의 밀도를 두 배로 높이고 에너지 소비량과 데이터센터 TCO를 낮춘다.
또한 차세대 엔비디아 블랙웰 아키텍처 기반의 GPU를 지원하도록 설계됐다. 슈퍼마이크로 냉각 분배 장치(CDU)와 매니폴드(CDM)는 냉각된 액체를 슈퍼마이크로의 맞춤형 D2C(Direct-to-Chip) 콜드 플레이트에 분배하기 위한 핵심 부품으로, GPU와 CPU를 최적의 온도로 유지하고, 성능을 극대화한다. 이를 통해 데이터센터의 총 전기 비용을 최대 40% 절감하고 물리적 공간도 절약할 수 있다.
엔비디아 HGX H100/H200 8-GPU를 탑재한 시스템은 생성형 Al 학습에 적합하며, 엔비디아 NV링크로 상호 연결된 고속 GPU와 더불어 넓은 GPU 메모리 대역폭 및 용량은 LLM 모델의 비용 효율적인 구동에 핵심적인 역할을 한다. 슈퍼마이크로의 슈퍼클러스터는 하나의 AI 슈퍼컴퓨터처럼 작동하는 대규모 GPU 리소스 풀을 생성한다.
슈퍼마이크로의 엔비디아 MGX 시스템 설계는 엔비디아 GH200 그레이스 호퍼 슈퍼칩을 통해 생성형 AI의 주요 병목 현상을 해결과 미래형 AI 클러스터에 대한 청사진을 제시한다.