인텔의 하바나ⓡ 가우디ⓡ2 딥 러닝 프로세서가 MLPerf 벤치마크에서 엔비디아 A100을 뛰어넘으며, 동급 최고의 성능을 과시했다.
MLPerf 벤치마크 엔비디아 A100 뛰어넘어
인텔의 하바나ⓡ 가우디ⓡ2 딥 러닝 프로세서가 MLPerf 벤치마크에서 엔비디아 A100을 뛰어넘으며, 동급 최고의 성능을 과시했다.
인텔은 1일 자사 2세대 하바나ⓡ 가우디ⓡ2 딥 러닝 프로세서와 엔비디아 A100의 AI 총 학습 시간(Time-to-Train, 이하 TTT) 성능을 MLPerf 산업 벤치마크 상에서 측정한 결과, 하바나ⓡ 가우디ⓡ2 딥 러닝 프로세서의 성능이 월등했다고 밝혔다.
인텔은 지난 5월 인텔 비전에서 발표한 가우디2 프로세서가 비전(ResNet-50) 및 언어(BERT) 부문에서 뛰어난 TTT를 기록했다고 밝혔다.
산드라 리베라(Sandra Rivera), 인텔 수석부사장 겸 데이터센터 및 AI 그룹 총괄은 “가우디2가 출시 한 달 만에 MLPerf 벤치마크에서 뛰어난 성능을 기록해 매우 기쁘며, 동시에 이러한 결과를 가져올 수 있도록 노력한 팀원에 자부심을 느낀다”며 “인텔은 비전 및 언어 모델 모두에서 동급 최고의 성능을 제공해, 고객에 가치를 제공하고 AI 딥러닝 솔루션 개발을 가속화하도록 지원할 것”이라고 말했다.
인텔 데이터 센터 팀은 하바나 랩스(Habana Labs)의 가우디 플랫폼을 활용해 딥 러닝 프로세서 기술에 중점을 두었으며, 데이터 과학자 및 머신러닝 엔지니어가 학습을 가속화할 수 있도록 지원했다. 아울러, 단 몇 줄의 코드로 새로운 모델을 구축하거나 기존 모델을 이전해 생산성을 높이고 운영비용을 절감할 수 있도록 구현했다.
하바나 가우디2는 1세대 가우디 제품 대비 TTT 부문에 있어 획기적인 발전을 이뤘다.
하바나 랩스는 지난 2022년 5월 진행한 MLPerf 벤치마크를 통해 가우디2가 8개의 가속기를 사용하는 비전 및 언어 모델에서 엔비디아 A100-80G 대비 월등한 성능을 기록했다고 밝혔다.
ResNet-50 모델의 경우, 가우디2는 엔비디아 A100-80G 제품 대비 학습 시간이 36% 단축됐다.
델(Dell)이 진행한 8개의 가속기 서버에서 진행한 ResNet-50 모델 및 BERT 모델 학습 테스트 결과 가우디2가 엔비디아 A100-40GB 대비 학습 시간을 45% 단축했다.
가우디2는 1세대 가우디 대비, ResNet-50 및 BERT 모델에서 각각 3배와 4.7배 높은 학습 처리량을 기록했다.
인텔은 해당 프로세서를 기존 16나노 공정에서 7나노 공정으로 전환해 텐서 프로세서 코어 수를 3배 증가했고, GEMM 엔진 컴퓨팅 용량 증설, 패키지 내 고대역폭 메모리 용량 3배 확대, 대역폭 및 SRAM 크기 2배 확장을 통해 이번 성과를 달성했다.
비전 모델의 경우 가우디2는 독립적으로 작동해 AI 학습에 필요한 데이터 증강을 포함, 압축 영상화를 위한 전반적인 전처리 파이프를 처리할 수 있는 통합 미디어 엔진 형태의 기능을 갖췄다.
가우디1 및 가우디2 프로세서는 특별한 소프트웨어 조작 없이도 고객에게 최고의 성능을 제공한다.
하바나 랩스는 8개의 GPU 서버 및 HLS-가우디2 레퍼런스 서버 상에서 가우디1 및 가우디2와 기존 상용 소프트웨어 간 성능을 비교했다. 학습 처리량은 NGC 및 하바나 공용 저장소의 텐서플로우 도커를 사용해 측정했으며, 제조사에서 권장하는 최고의 성능 매개 변수를 채택했다.
MLPerf을 통해 측정된 가우디2 제품의 성능 외에도, 가우디1은 고효율 시스템 스케일링을 지원하는 128-가속기 및 256-가속기를 위한 ResNet 모델에서 강력한 성능 및 선형 스케일을 제공했다.
에이탄 메디나(Eitan Medina) 하바나 랩스 최고운영책임자는 “가우디2는 최신 MLPerf 결과로도 입증됐듯이 모델 학습에 있어 업계 선도적인 성능을 제공한다”며 “하바나 랩스는 비용 경쟁력이 높은 AI 학습 솔루션을 제공하기 위해 딥 러닝 교육 아키텍처와 소프트웨어를 지속적으로 혁신하고 있다”고 말했다.