인퍼런스MAX 벤치마크서 블랙웰 성능 입증
AI 컴퓨팅 기술의 선두주자 엔비디아(NVIDIA)가 AI 데이터센터의 성능을 수익으로의 전환할 수 있음을 입증하며, AI 추론 시장의 판도를 바꿨다.
엔비디아는 차세대 AI 플랫폼 ‘블랙웰(Blackwell)’을 통해 새롭게 발표된 인퍼런스MAX v1 벤치마크에서 최고 성능과 효율성을 보였다고 13일 밝혔다.
이번 결과는 하드웨어와 소프트웨어의 풀스택 공동 설계를 기반으로, AI 데이터센터의 생산성과 투자수익률(ROI)을 획기적으로 향상시킨 사례로 평가받고 있다.
엔비디아 GB200 NVL72 시스템에 500만달러를 투자하면 7,500만달러의 토큰 수익을 창출할 수 있어, 15배의 ROI를 기록했다.
이는 AI 추론이 단순한 기술을 넘어 실질적인 비즈니스 가치를 창출하는 핵심 인프라로 자리잡고 있음을 보여준다.
인퍼런스MAX v1은 세미애널리시스(SemiAnalysis)가 발표한 독립형 벤치마크로, 실제 시나리오 기반의 총 컴퓨팅 비용을 측정해 블랙웰의 성능 리더십을 입증했다.
특히 GPT-OSS 120B, 라마 3 70B, 딥시크 R1 등 오픈소스 기반 모델들과의 협업을 통해, 대규모 추론 환경에서 최적의 성능을 구현하고 있다.
TensorRT LLM v1.0은 블랙웰 B200 시스템과 NVLink 스위치의 1,800GB/s 대역폭을 활용해 GPT-OSS 모델의 처리량을 획기적으로 향상시켰다.
특히 추측 디코딩(speculative decoding) 기술을 도입한 gpt-oss-120b-Eagle3-v2 모델은 사용자당 100TPS를 달성하며, GPU당 최대 30,000TPS까지 처리 속도를 끌어올렸다.
블랙웰은 GPU당 10,000TPS 이상을 제공하며, H200 대비 4배 높은 처리량을 기록했다.
전력 제한 환경에서도 메가와트당 10배 높은 처리량을 실현하며, 백만 토큰당 비용을 15배 절감해 AI 배포의 경제성을 극대화했다.
인퍼런스MAX는 데이터센터의 처리량, 반응성, 비용, 에너지 효율성을 균형 있게 매핑하는 파레토 프론티어 접근법을 적용해, 실제 워크로드에서 최고의 ROI를 보장한다.
이는 단일 시나리오에 최적화된 시스템과 차별화되는 블랙웰의 풀스택 설계의 강점을 보여준다.
블랙웰은 NVFP4 저정밀도 포맷, 5세대 NVLink, 고병렬 처리 알고리즘 등으로 구성된 아키텍처를 기반으로, TensorRT-LLM, Dynamo, SGLang, vLLM 등 오픈소스 프레임워크와의 협업을 통해 지속적인 성능 향상을 실현하고 있다.