
▲초협업 설계의 블랙웰NVL72는MoE 모델을 위한 게임 체인저이다.
72개 블랙웰 GPU를 NV링크로 연결 하나의 시스템처럼 동작
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(NVIDIA)가 최첨단 AI 모델들이 채택하고 있는 전문가 혼합 방식(mixture-of-experts, MoE) 모델 아키텍처의 성능을 10배로 극대화했다.
엔비디아는 4일 엔비디아 블랙웰 GB200 NVL72(NVIDIA Blackwell GB200 NVL72)의 기술적 성과를 공개했다.
이번 발표는 AI 컴퓨팅 분야에서 엔비디아의 기술적 리더십을 다시 한번 입증하며, 글로벌 AI 데이터센터와 주요 산업군에서의 활용 가능성을 크게 확장했다.
MoE는 인간 두뇌의 효율성을 모방한 구조로, 작업을 전문화된 ‘전문가(Experts)’에게 분배해 각 토큰마다 필요한 전문가만 활성화한다.
이 방식은 연산량 증가 없이 더 빠르고 효율적인 토큰 생성을 가능하게 한다. 독립 평가 기관 Artificial Analysis(AA)의 리더보드에서 상위 10개 오픈소스 모델 모두 MoE 아키텍처를 채택했으며, 여기에는 딥시크-R1(DeepSeek-R1), 키미 K2 씽킹(Kimi K2 Thinking), 미스트랄 라지 3(Mistral Large 3) 등이 포함된다.
엔비디아 GB200 NVL72는 이러한 MoE 모델을 실제 프로덕션 환경에서 확장 가능하게 만든다. 특히 키미 K2 씽킹 모델은 기존 HGX H200 대비 NVL72에서 10배 성능 향상을 기록했으며, 딥시크-R1과 미스트랄 라지 3에서도 동일한 성과가 입증됐다.
프론티어급 MoE 모델은 단일 GPU로는 처리하기 어려운 규모와 복잡성을 가진다. 엔비디아 GB200 NVL72는 72개의 블랙웰 GPU를 NV링크(NVLink)로 연결해 하나의 시스템처럼 동작하는 랙 스케일 구조를 제공한다. 이를 통해 1.4엑사플롭스의 AI 성능과 30TB 공유 메모리, 초당 130TB NV링크 대역폭을 지원한다.
이 설계는 △GPU당 전문가 수 감소로 메모리 부담 최소화 △전문가 간 NV링크 기반 초고속 통신으로 지연 해소 등 기존 병목 현상을 해결한다.
또한 엔비디아 다이나모(Dynamo) 프레임워크와 TensorRT-LLM, SGLang, vLLM 같은 오픈소스 추론 툴이 결합돼 MoE 모델의 추론 성능을 극대화한다.
GB200 NVL72는 AWS, 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드, 코어위브(CoreWeave), 투게더 AI 등 주요 클라우드 서비스 제공업체를 통해 배포되고 있다.
코어위브 CTO 피터 살란키는 “NVL72는 성능·확장성·안정성을 모두 갖춘 통합 플랫폼으로, AI 전용 클라우드에서만 가능한 혁신을 제공한다”고 말했다.
딥엘(DeepL) 역시 GB200 NVL72를 활용해 MoE 모델 훈련과 추론 효율성을 높이고 있으며, 파이어웍스 AI(Fireworks AI)는 키미 K2 모델을 NVL72에 배포해 AA 리더보드 최고 성능을 달성했다.
엔비디아 CEO 젠슨 황(Jensen Huang)은 GTC 워싱턴 D.C.에서 “GB200 NVL72는 딥시크-R1 모델에서 호퍼(Hopper) 대비 10배 성능 향상을 제공한다”고 강조했다.
이는 토큰 처리량을 10배 끌어올려 데이터센터의 전력·비용 제약을 근본적으로 변화시키는 결과다.
미스트랄 라지 3 역시 NVL72에서 이전 세대 대비 10배 성능 향상을 달성해 사용자 경험 개선, 토큰당 비용 절감, 에너지 효율성 강화라는 효과를 입증했다.
엔비디아 GB200 NVL72는 MoE 모델뿐 아니라 멀티모달 AI와 에이전틱 시스템에도 최적화된 성능을 제공한다.
언어·시각·오디오 등 다양한 모달리티와 에이전트 기반 워크플로우를 효율적으로 지원하며, 공유 전문가 풀을 활용해 대규모 프로덕션 환경에서도 확장성을 보장한다.
엔비디아는 GB200 NVL72를 통해 AI 성능·효율·확장성을 동시에 실현하며, 향후 베라 루빈(Vera Rubin) 아키텍처 로드맵을 통해 프런티어 모델의 가능성을 더욱 확장할 계획이다.