의료·게이밍·고객 서비스 전반서 오픈소스 기반 비용 혁신 가속
엔비디아가 컴퓨팅, 네트워킹, 소프트웨어 전반에 걸친 풀스택 전략을 바탕으로, AI 추론의 경제성을 획기적으로 개선하며 산업 전반의 AI 도입을 가속화하고 있다.
엔비디아는 차세대 AI 컴퓨팅 플랫폼 ‘엔비디아 블랙웰(NVIDIA Blackwell)’을 통해 AI 추론 서비스의 토큰당 비용을 최대 10배까지 절감하며, 산업 전반의 AI 확산을 가속화하고 있다고 20일 밝혔다.
베이스텐, 딥인프라, 파이어웍스 AI, 투게더 AI 등 주요 추론 서비스 제공업체들은 블랙웰 기반의 최적화된 추론 스택을 도입해 효율성과 확장성을 동시에 확보했다.
AI 기반 의료 진단, 인터랙티브 게임, 고객 서비스 에이전트 등 다양한 AI 상호작용은 ‘토큰’이라는 동일한 지능 단위를 기반으로 작동한다.
기업이 AI 서비스를 확장하기 위해서는 더 많은 토큰을 감당할 수 있는 토크노믹스(tokenomics)가 핵심 과제로 떠오르고 있다.
최근 MIT 연구에 따르면 인프라와 알고리즘 효율성 향상을 통해 최첨단 AI 추론 비용은 연간 최대 10배까지 감소하고 있는 것으로 나타났다.
엔비디아 블랙웰 플랫폼은 하드웨어와 소프트웨어의 긴밀한 공동 설계를 통해 이러한 비용 절감을 현실화했다.
저정밀 NVFP4 데이터 형식, 텐서RT-LLM, 다이나모 추론 프레임워크 등 최적화 기술을 결합해 동일한 인프라 비용으로 훨씬 더 많은 토큰을 처리할 수 있도록 했다.
의료 분야에서는 베이스텐과 설리.ai가 블랙웰 기반 오픈소스 모델을 활용해 AI 추론 비용을 기존 대비 90% 절감했다.
의료 기록 생성과 코드 작성 등 반복 업무의 응답 속도는 65% 개선돼, 의료진에게 3천만 분 이상의 시간을 돌려줬다.
게이밍 분야에서는 딥인프라와 래티튜드가 블랙웰 기반 추론으로 토큰당 비용을 4배 낮추며, 대규모 AI 네이티브 게임 환경에서도 안정적인 사용자 경험을 구현했다.
에이전틱 챗과 고객 서비스 영역에서도 성과가 이어졌다.
파이어웍스 AI와 센티언트 랩스는 블랙웰 최적화 추론 스택을 통해 비용 효율성을 최대 50% 개선했으며, 투게더 AI와 데카곤은 음성 AI 고객 지원에서 질의당 비용을 6배 절감하면서도 400밀리초 미만의 응답 시간을 달성했다.