일반적으로 AI 성능을 평가하는 가장 신뢰할 만한 지표인 MLPerf는 공정하고 반복 가능한 성능 비교를 가능하게 한다. MLPerf에서의 높은 지표가 AI 반도체 경쟁력으로 작용하고 있는 가운데 인텔이 ML커먼스 벤치마크에서 경쟁 제품 대비 비교 우위의 결과를 달성했다는 소식이 전해졌다.
▲인텔 가우디2(사진:인텔)
ML커먼스 벤치마크 결과 AI 전반 경쟁력 확인
일반적으로 AI 성능을 평가하는 가장 신뢰할 만한 지표인 MLPerf는 공정하고 반복 가능한 성능 비교를 가능하게 한다. MLPerf에서의 높은 지표가 AI 반도체 경쟁력으로 작용하고 있는 가운데 인텔이 ML커먼스 벤치마크에서 경쟁 제품 대비 비교 우위의 결과를 달성했다는 소식이 전해졌다.
현지시간으로 11일 ML커먼스(MLCommons)가 60억 개의 파라미터를 가진 대규모 언어 모델인 GPT-J를 포함해 컴퓨터 비전 및 자연어 처리 모델에 대한 ‘MLPerf 추론(MLPerf Inference) 3.1’ 결과를 발표했다.
여기서 인텔은 △하바나 가우디2 가속기 △4세대 인텔 제온 스케일러블 프로세서 △인텔 제온 CPU 맥스 시리즈 제품의 성능 측정 결과를 제출했다. 인텔은 이를 통해 AI 추론 분야에서 인텔이 가진 경쟁력은 물론, 클라이언트 및 엣지부터 네트워크와 클라우드까지 AI 워크로드 전반에서 다양한 규모별 AI 접근성을 향상하고자 하는 인텔의 노력을 선보였다.
인텔 데이터센터 및 AI 그룹 총괄 산드라 리베라(Sandra Rivera) 수석부사장은 “이번 ML커먼스 결과를 통해 입증된 바와 같이, 인텔은 고성능, 고효율 딥 러닝 추론 및 학습에 대한 고객의 요구를 충족하도록 설계된 강력하고 경쟁력 있는 AI 제품 포트폴리오를 보유하고 있다”며 “모든 AI 모델 스펙트럼에 걸쳐 있는 AI 제품군은 가장 작은 모델에서부터 가장 큰 모델까지 다양하며 가격 대비 성능이 뛰어나다”고 말했다.
이번 발표는 지난 6월 가우디2 제품이 최신 비전 언어 모델에서 엔비디아(Nvidia)의 H100의 성능을 능가할 수 있다는 ML커먼스의 AI 학습 결과 및 허깅페이스(Hugging Face) 성능 결과의 연장선이다. 또한, 인텔이 AI 컴퓨팅 요구를 충족하기 위해 엔비디아 H100 및 A100 제품의 유일한 대안을 제공한다는 것을 강조하는 결과다.
고객은 각자 고려해야 하는 부분이 다르며, 인텔은 AI 워크로드 전반에서 추론 및 학습을 다룰 수 있는 제품을 통해 어떤 용도에서나 AI를 구현하도록 지원한다. 인텔의 AI 제품은 고객이 성능, 효율성 및 비용 목표에 따라 최적의 AI 솔루션을 선택할 때 유연성과 선택권을 제공하며, 동시에 폐쇄된 생태계에서 벗어날 수 있도록 돕는다.
하바나 가우디2의 GPT-J 추론 성능 결과에서 GPT-J-99 및 GPT-J-99.9에 대한 가우디2 추론 성능은 각 서버 쿼리에 대해 초당 78.58회 및 오프라인 샘플에 대해 초당 84.08회를 기록했다.
인텔은 가우디2가 엔비디아 H100 대비 서버 모드에서 약 9%, 오프라인 모드에서 약 28% 높은 성능을 제공하는 등 약간의 우위를 보여줬다고 밝혔다. 가우디2는 엔비디아 A100 대비 서버 모드에서 2.4배, 오프라인 모드에서 2배 높은 성능을 제공했으며, 가우디2 성능은 FP8을 사용해 신규 데이터 유형에서 99.9%의 정확도를 달성했다고 덧붙였다.
인텔은 매 6주에서 8주마다 출시되는 가우디2 소프트웨어 업데이트를 통해 MLPerf 벤치마크에서 성능 향상과 확장된 모델 범위를 지속적으로 제공할 예정이다.
▲4세대 인텔 제온 스케일러블 프로세서(사진:인텔)
인텔은 4세대 인텔 제온 스케일러블 프로세서에서 GPT-J를 포함한 일곱 가지 추론 벤치마크 결과를 모두 제출했다. 이러한 결과는 △비전 △언어 처리 △음성 및 오디오 번역 모델을 비롯해 다양한 일반 AI 워크로드 및 훨씬 더 큰 DLRM v2 추천 및 챗GPT-J 모델과 같은 큰 모델에 대한 우수한 성능을 보여준다. 더불어 인텔은 여전히 산업 표준 딥 러닝 생태계 소프트웨어를 사용해 공개 CPU 결과를 제출하는 유일한 업체이기도 하다.
4세대 인텔 제온 스케일러블 프로세서는 가장 인기 있는 AI 프레임워크와 라이브러리를 사용해 일반적인 AI 워크로드를 구축하고 배포하는 데 이상적이다. 4세대 인텔 제온 프로세서는 약 1,000개~1,500 단어 길이의 뉴스 기사를 GPT-J 100단어 요약 작업에서 오프라인 모드에서 초당 두 개의 단락을 요약하고 실시간 서버 모드에서 초당 한 개의 단락을 요약했다.
인텔은 처음으로 인텔 제온 CPU 맥스 시리즈에 대한 MLPerf 결과를 제출했으며, 최대 64GB의 고대역폭 메모리를 제공한다. GPT-J의 경우, CPU가 99.9% 정확도를 달성할 수 있는 유일한 CPU로 최고 정확도가 핵심 성능 요건인 응용 프로그램에 중요한 역할을 한다.
인텔은 OEM 고객이 직접 결과를 제출할 수 있도록 OEM과 협력했다. 이를 통해 인텔은 고객 서비스 수준 협약(SLA)을 충족할 수 있는 인텔 제온 프로세서 기반 범용 서버의 AI 성능 확장성과 폭넓은 가용성을 선보였다.
한편, 인텔은 다음 MLPerf 벤치마크에서 새로운 AI 트레이닝 성능 결과를 제출할 예정이라고 밝혔다.