스토리지 성능은 AI 수명주기의 여러 단계에서 핵심적인 역할을 한다. GPU를 연결하는 네트워크가 AI 애플리케이션 성능에 매우 중요한 것처럼, 고속 스토리지 어레이를 연결하는 스토리지 패브릭 중요성이 점차 커지고 있다.
AI, 멀티모달화·모델크기↑, 스토리지 패브릭 확장 必
엔비디아 스펙트럼-X, AI 스토리지 최대 48% 가속화
스토리지 성능은 AI 수명주기의 여러 단계에서 핵심적인 역할을 한다. GPU를 연결하는 네트워크가 AI 애플리케이션 성능에 매우 중요한 것처럼, 고속 스토리지 어레이를 연결하는 스토리지 패브릭 중요성이 점차 커지고 있다.
엔비디아가 스토리지 생태계와 함께 엔비디아 스펙트럼-X(NVIDIA Spectrum-X) 네트워킹 플랫폼을 데이터 스토리지 패브릭으로 확장한다고 6일 밝혔다. 스펙트럼-X는 AI 스토리지를 최대 48%까지 가속화한다고 강조했다.
스펙트럼-X는 읽기 대역폭을 최대 48%, 쓰기 대역폭을 최대 41%까지 가속화한다. 이렇게 증가된 대역폭은 AI 워크플로우에서 스토리지에 의존하는 단계의 완료 속도를 높여 훈련 시 작업 완료 시간을 단축하고, 추론 시 토큰 간 지연 시간을 줄여준다.
시장 요구를 충족시키기 위해 엔비디아와 스토리지 생태계는 엔비디아 스펙트럼-X 네트워킹 플랫폼을 데이터 스토리지 패브릭으로 확장하고 있다. 더 높은 AI 성능과 빠른 구현 시간 제공을 위해 스펙트럼-X 배포에 앞장서고 있는 것이다.
스펙트럼-X 적응형 라우팅은 흐름 충돌을 완화하고 유효 대역폭을 확대시킬 수 있다. 따라서 대부분의 데이터 센터가 AI 컴퓨팅과 스토리지 패브릭에 사용하는 이더넷(Ethernet) 네트워킹 프로토콜인 RoCE v2보다 스토리지 성능이 더 높다고 강조한다.
AI 워크로드의 규모와 복잡성이 증가하고 있다. 모델이 점점 커지고 데이터가 더 멀티모달화되고 있으며, AI 팩토리는 대개 매우 많은 수의 스위치, 케이블, 트랜시버로 구성돼 있기 때문에, 다운된 링크 하나만으로도 네트워크 성능이 크게 저하될 수 있다.
이에 주요 스토리지 공급업체들은 엔비디아와 협력해 스펙트럼-X에 자사 솔루션을 통합하고 최적화함으로써 AI 스토리지 패브릭에 최첨단 기능을 도입하고 있다.
엔비디아는 스펙트럼-X 성능을 최적화하기 위해 생성형 AI 슈퍼컴퓨터인 이스라엘-1(Israel-1)을 구축했다. 이 슈퍼컴퓨터는 AI 패브릭에 대한 사전 테스트와 검증된 청사진을 제공해 네트워크 배포를 단순화한다. 이를 기반으로 스펙트럼-X가 스토리지 워크로드에 미치는 영향을 테스트하는 환경을 제공하며 나아가 실제 슈퍼컴퓨터 운영 환경의 맥락에서 네트워크가 스토리지 성능에 미치는 영향을 보여준다.
이스라엘-1 팀은 엔비디아 HGX H100 GPU 서버 클라이언트가 스토리지에 액세스할 때 발생하는 읽기, 쓰기 대역폭을 측정해 앞선 대역폭 결과값을 도출한 것이다. GPU 서버의 수를 40개에서 800개까지 다양하게 설정했으며, 읽기 대역폭의 경우 개선 폭이 20%에서 48%에 이르렀고, 쓰기 대역폭의 경우 9%에서 41%에 달했다.
스펙트럼-X가 이러한 큰 차이를 만드는 이유로는 스토리지가 AI에 미치는 영향을 살펴볼 필요가 있다. AI 성능은 단순히 거대 언어 모델(LLM) 단계 완료 시간만으로 결정되지 않기 때문이다.
예를 들어, 모델 훈련은 완료하는 데 며칠에서부터 길게는 몇 달이 걸리는 경우가 많다. 따라서 훈련 도중에 보통 몇 시간마다 부분적으로 훈련된 모델을 스토리지에 체크포인트로 저장하는 것이 합리적이다. 이는 시스템 중단이 발생하더라도 훈련 진행 상황이 손실되지 않는 이점이 있다.
십억과 조 단위의 파라미터를 가진 모델들의 체크포인트 상태는 오늘날 가장 큰 LLM의 경우 최대 수 테라바이트에 달하는 데이터 크기를 가진다. 이를 저장하거나 복원하는 과정에서 ‘엘리펀트 플로우(elephant flow)’가 발생할 수 있다. 이는 스위치 버퍼와 링크를 압도할 수 있는 대량의 데이터가 폭증하는 현상이다.
엘리펀트 플로우 충돌을 제거하고 체크포인팅 중에 생성되는 네트워크 트래픽을 완화하기 위해, 적응형 라우팅은 네트워크에서 패킷 단위로 흐름의 부하를 동적으로 분산하는 데 사용된다.
스펙트럼-X를 사용하면 대상 호스트의 슈퍼NIC(SuperNIC) 또는 데이터 처리 장치(data processing unit, DPU)는 패킷의 올바른 순서를 파악해 호스트 메모리에 순서대로 배치한다. 또한, 적응형 라우팅을 애플리케이션에 투명하게 유지한다. 이를 통해 패브릭 활용도를 높여 유효 대역폭을 넓히고 체크포인트, 데이터 가져오기 등에 대한 예측 가능하고 일관된 결과를 얻을 수 있다.
엔비디아는 엔비디아 △에어 △큐물러스 리눅스 △도카 △네트Q △GPU 다이렉트 스토리지 등을 지원해 여러 SDK, 라이브러리, 소프트웨어 제품 등을 제공한다.