엔비디아는 GTC 2018에서 자사의 딥 러닝 컴퓨팅 플랫폼에 대한 성능 개선 사항을 연이어 공개하며 딥 러닝 워크로드 면에서 6개월 만에 이전 세대 대비 10배의 성능 개선을 이뤄냈다고 발표했다.
엔비디아 플랫폼의 핵심 개선 사항은 데이터센터 GPU인 엔비디아 테슬라 V100의 메모리 2배 확충과 획기적인 GPU 인터커넥트 패브릭인 엔비디아 NV스위치를 포함하며 NV스위치를 활용해 최대 16개의 테슬라 V100 GPU가 초당 2.4테라바이트라는 기록적인 속도에서 동시에 커뮤니케이션 할 수 있다. 이외에도 소프트웨어 스택의 업데이트 및 최적화 소식을 함께 발표했다.
엔비디아는 엔비디아 DGX-2출시로 딥 러닝 컴퓨팅 분야에 2페타플롭의 연산 능력을 제공할 수 있는 첫 단일 서버를 선보였다. DGX-2의 딥 러닝 처리 성능은 데이터센터에서 15개의 랙을 차지하는 서버 300대의 성능에 준하지만 크기는 60배가량 작고 전력 효율성은 18배가량 우수하다.
테슬라 V100 32GB GPU에 메모리 2배 확충
NV스위치 패브릭, 종합 소프트웨어 스택 적용으로 성능 강화
엔비디아는 GTC 2018에서 자사의 딥 러닝 컴퓨팅 플랫폼에 대한 성능 개선 사항을 연이어 공개하며 딥 러닝 워크로드 면에서 6개월 만에 이전 세대 대비 10배의 성능 개선을 이뤄냈다고 발표했다.
엔비디아 플랫폼의 핵심 개선 사항은 데이터센터 GPU인 엔비디아 테슬라 V100의 메모리 2배 확충과 획기적인 GPU 인터커넥트 패브릭인 엔비디아 NV스위치를 포함하며 NV스위치를 활용해 최대 16개의 테슬라 V100 GPU가 초당 2.4테라바이트라는 기록적인 속도에서 동시에 커뮤니케이션 할 수 있다. 이외에도 소프트웨어 스택의 업데이트 및 최적화 소식을 함께 발표했다.
엔비디아는 엔비디아 DGX-2출시로 딥 러닝 컴퓨팅 분야에 2페타플롭의 연산 능력을 제공할 수 있는 첫 단일 서버를 선보였다. DGX-2의 딥 러닝 처리 성능은 데이터센터에서 15개의 랙을 차지하는 서버 300대의 성능에 준하지만 크기는 60배가량 작고 전력 효율성은 18배가량 우수하다.
엔비디아의 창립자 겸 CEO인 젠슨 황은 GTC 2018에서 이 소식을 공개하며 “개선 사항의 대부분은 전 세계의 표준으로 빠르게 자리 잡은 엔비디아의 딥 러닝 플랫폼을 토대로 하고 있다. 우리는 이 플랫폼의 성능을 무어의 법칙을 압도적으로 능가하는 속도로 강화해 나가고 있어 헬스케어, 교통, 과학 탐구 및 기타 수많은 영역에서 획기적인 변혁을 이끌 돌파구를 만들고 있다”고 말했다.
메모리가 2배 확충된 테슬라 V100
테슬라 V100 GPU는 메모리 집약적인 딥 러닝 및 고성능 컴퓨팅 워크로드를 처리할 수 있도록 메모리가 2배 확충됐다.
데이터 과학자는 32GB의 메모리를 장착한 테슬라 V100 GPU를 통해 딥 러닝 모델의 트레이닝을 질적, 양적 측면에서 심화할 수 있게 되며 정확성도 향상된다. 또한, 메모리 제약이 심한 HPC 애플리케이션의 성능을 이전의 16GB 버전 대비 최대 50% 가량 향상시킬 수 있다.
테슬라 V100 32GB GPU는 전체 엔비디아 DGX 시스템 포트폴리오에 즉시 적용된다. 주요 컴퓨터 제조업체인 크레이, 휴렛패커드 엔터프라이즈, IBM, 레노버, 슈퍼마이크로 및 타이안에서는 새로운 테슬라 V100 32GB를 적용한 시스템을 2분기 내 출시할 것이라고 발표했다. 오라클 클라우드 인프라스트럭처도 올해 상반기 내 테슬라 V100 32GB를 자사 클라우드에서 제공한다는 계획을 발표했다.
NV스위치: 획기적인 인터커넥트 패브릭
NV스위치는 최고의 PCIe 스위치 대비 5배로 높은 대역폭을 제공해, 개발자들이 더 많은 GPU를 하이퍼커넥트 방식으로 연결해 시스템을 구축할 수 있도록 돕는다. 이에 따라 개발자들은 종전의 시스템 상 한계를 극복하고 더 많은 데이터셋을 실행할 수 있게 될 전망이다. 또한, 뉴럴 네트워크의 병렬 트레이닝 모델링처럼 복잡한 대규모 워크로드의 실행 가능성도 열리게 됐다.
NV스위치는 엔비디아가 개발한 첫 고속 인터커넥트 기술인 엔비디아 NV 링크를 통해 이뤄낸 기술 혁신의 연장선상에 있다. NV 스위치를 통해 시스템 디자이너는 NV 링크 기반 GPU의 어떤 토폴로지라도 유연하게 연결할 수 있는 첨단 시스템을 구축할 수 있다.
첨단 GPU 가속 딥 러닝 및 HPC 소프트웨어 스택
엔비디아의 딥 러닝 및 HPC 소프트웨어 스택 업데이트는 엔비디아의 개발자 커뮤니티에 무료로 공개된다. 엔비디아 개발자 커뮤니티의 등록 회원 수는 82만여 명으로 1년 전의 48만 명에서 크게 늘어났다.
이번에 공개되는 업데이트에는 새로운 버전의 엔비디아 CUDA, 텐서RT, NCCL, cuDNN이 포함되며 새로운 로보틱스 아이작 소프트웨어 개발 키트도 포함되어 있다. 이외에도 업계를 선도하는 클라우드 서비스 기업들과의 긴밀한 협업을 통해 모든 주요 딥 러닝 프레임워크가 엔비디아 GPU 컴퓨팅 플랫폼의 다양한 이점을 충분히 활용할 수 있도록 지속적인 최적화 작업이 진행된다.
엔비디아 DGX-2: 세계 최초의 2페타플롭 시스템
엔비디아의 DGX-2 시스템은 컴퓨팅 스택의 모든 수준에서 엔비디아가 이끌어 온 여러 선도적인 기술 발전이 종합적으로 반영된 것으로, 2페타플롭을 개발했다.
DGX-2는 시스템 내 GPU 16개 모두 통합된 메모리 공간을 공유할 수 있도록 하는 NV스위치가 적용된 최초의 시스템이다. 이제 개발자들은 최대 규모의 데이터셋과 가장 복잡한 딥 러닝 모델을 처리할 수 있는 딥 러닝 트레이닝 성능을 활용할 수 있게 된다.
최적화 및 업데이트가 완료된 엔비디아 딥 러닝 소프트웨어를 적용한 DGX-2는 딥 러닝 연구 및 연산의 한계에 도전하는 데이터 과학자를 위해 개발된 제품이다.
DGX-2에서는 뉴럴 네트워크 기반의 최첨단 기계 번역 모델인 FAIRSeq의 트레이닝이 채 이틀도 소요되지 않는다. 9월에 도입된 볼타 아키텍처 기반 DGX-1과 비교했을 때 성능이 10배 가량 개선된 것이다.