인텔이 AI 가속기에서의 연산 성능을 높이고 있다. 인텔 가우디2가 GPT-3 벤치마크에서 지난 결과값 대비 2배가량 높은 성적표를 받아 들며 거듭된 혁신의 결과를 증명했다.
▲인텔 가우디2 가속기(사진:인텔)
인텔 최신 MLPerf 테스트 결과 공개
인텔이 AI 가속기에서의 연산 성능을 높이고 있다. 인텔 가우디2가 GPT-3 벤치마크에서 지난 결과값 대비 2배가량 높은 성적표를 받아 들며 거듭된 혁신의 결과를 증명했다.
10일 인텔이 ML커먼스에서 인텔 가우디2 가속기 및 인텔 어드밴스드 매트릭스 익스텐션(Intel AMX)이 탑재된 4세대 인텔 제온 스케일러블 프로세서의 MLPerf 트레이닝(MLPerf Training) v3.1 벤치마크 측정 결과를 발표했다고 밝혔다.
AI 모델 학습에 대한 업계 표준 인텔 가우디2는 v3.1 학습 GPT-3 벤치마크에서 8비트 부동 소수점(FP8) 데이터 유형을 적용해 두 배 높은 성능을 보여줬다고 강조했다. 인텔은 해당 벤치마크 제출을 통해 경쟁력 있는 AI 솔루션으로 AI를 어디서나 제공하겠다는 약속을 더욱 공고히 했다.
가우디2는 FP8 데이터 유형 구현으로 v3.1 학습 GPT-3 벤치마크에서 두 배의 성능 향상을 보였다. 6월 MLPerf 벤치마크 대비 학습 시간이 절반 이상으로 단축됐으며, 384개의 인텔 가우디2 가속기를 사용해 153.38분 만에 학습을 완료했다. 지난 6월 발표에서는 동일 개수의 가속기로 GPT-3에서 311분의 학습 시간을 기록한 바 있다.
인텔은 가우디2 가속기가 E5M2 및 E4M3 형식 모두에서 FP8을 지원하며 필요 시 지연 스케일링 옵션도 제공한다고 덧붙였다. 최신 ML커먼스의 MLPerf 결과는 지난 6월 발표한 MLPerf 트레이닝 결과보다 향상된 인텔의 AI 성능에 기반하는 것으로 전해진다.
또한 가우디2는 BF16을 사용해 20.2분 만에 64개의 가속기로 스테이블 디퓨전(Stable Diffusion) 멀티모달 모델에 대한 학습을 시연했다. 향후 MLPerf 트레이닝 벤치마크에서는 FP8 데이터 유형에 대한 스테이블 디퓨전 성능이 제출될 예정이다.
8개의 인텔 가우디2 가속기에서 BERT와 ResNet-50에 대한 벤치마크 결과는 각각 BF16을 사용하여 13.27분과 15.92분을 나타냈다.
▲4세대 인텔 제온 스케일러블 프로세서(사진:인텔)
인텔은 MLPerf 결과를 제출하는 유일한 CPU 제조사로 4세대 제온에 대한 MLPerf 결과를 통해 제온 프로세서의 강력한 성능을 강조하고 있다.
RESNet50, RetinaNet, BERT 및 DLRM dcnv2에 대한 결과를 제출해 4세대 인텔 제온 스케일러블 프로세서의 ResNet50, RetinaNet 및 BERT에 대한 결과는 2023년 6월 MLPerf 벤치마크에 제출된 기본 성능 결과와 유사한 것으로 나타났으며, DLRM dcnv2는 6월에 제출된 새로운 CPU 모델, 4개의 노드만 사용해 227분의 학습 시간을 기록했다.
4세대 제온 프로세서의 성능을 통해, 많은 엔터프라이즈 기업이 범용 CPU를 사용해 기존 엔터프라이즈 IT 인프라에서 중소 규모의 딥 러닝 모델을 경제적이고 지속적으로 학습할 수 있으며, 특히 학습이 간헐적인 워크로드인 사용 사례에 적합하다고 강조하고 있다.
소프트웨어 업데이트 및 최적화를 통해 향후 MLPerf 벤치마크에서 AI 성능 결과가 더욱 향상될 것으로 인텔은 기대했다.
인텔 데이터센터 및 AI 그룹 총괄 산드라 리베라(Sandra Rivera) 수석부사장은 “인텔은 AI 포트폴리오를 지속적으로 혁신하고 있으며, 연이은 MLPerf 성능 결과를 통해 ML커먼스 AI 벤치마크의 기준을 높이고 있다”며 “인텔 가우디 및 4세대 제온 프로세서는 고객에게 뚜렷한 가격 대비 성능 이점을 제공하며 즉시 사용 가능하다”고 말했다.