Arm은 최근 Arm Kleidi 기술을 PyTorch 및 ExecuTorch와 통합해 차세대 앱이 Arm CPU에서 대규모 언어 모델(LLM)을 실행할 수 있도록 지원한다고 30일 발표했다.
Kleidi 기술, 차세대 앱 Arm CPU서 대형 언어 모델 실행 가능
Arm은 최근 Arm Kleidi 기술을 PyTorch 및 ExecuTorch와 통합해 차세대 앱이 Arm CPU에서 대규모 언어 모델(LLM)을 실행할 수 있도록 지원한다고 30일 발표했다.
Kleidi는 최신 개발자 지원 기술과 핵심 리소스를 결합해 ML 스택 전반에서 기술 협업을 촉진하며, 클라우드에서 Kleidi는 Arm 컴퓨팅 라이브러리(ACL)를 통해 PyTorch를 개선했다.
기존 작업을 기반으로 모든 곳에서 Arm의 AI를 최적화하기 위한 청사진을 수립해 Arm은 PyTorch 및 TensorFlow와 직접 파트너십을 맺고 이러한 주요 프레임워크에 직접 통합된 필수 Arm 커널(kernels)로 구성된 Arm Kleidi 라이브러리를 통합했다.
Meta Llama 3 대규모 언어 모델에 기반하며 AWS Graviton 프로세서에서 실행되는 Arm의 데모 챗봇은 메인라인 PyTorch에서 처음으로 실시간 채팅 응답을 지원한다. AWS Graviton에서 측정한 기준 기준, Kleidi 기술을 오픈 소스 PyTorch 코드베이스에 통합한 후 첫 토큰 생성 시간이 2.5배 단축됐다.
ACL을 통해 제공되는 Kleidi 기술을 효율적으로 활용하기 위해 torch.compile에 최적화를 적용한 결과, 다양한 허깅페이스 모델 추론 워크로드에서 AWS Graviton3 성능이 1.35배에서 최대 2배까지 향상됐다.
클라우드 사례는 Arm에서 ML 워크로드를 보편화하기 위해 노력하면서 실현 가능한 성능 가속화의 유형을 나타낸다. Arm은 개발자가 즉시 활용할 수 있도록 새로운 기능을 이전 버전과 호환되도록 하는 등 개발자의 AI 앱이 클라우드부터 엣지까지 자사 기술에서 최상의 성능을 발휘할 수 있도록 지속적으로 투자하고 있다.
Arm의 개발자 기술 부문 부사장인 알렉스 스피넬리(Alex Spinelli)는 “Kleidi는 출시된 지 불과 4개월 만에 이미 개발을 가속화하고 Arm CPU에서 주요 AI 성능 향상을 실현하고 있다”면서, “Arm과 PyTorch 커뮤니티와의 긴밀한 협력은 해당 기술이 개발자가 효율적인 AI를 활용하는 데 필요한 노력을 대폭 줄여주는 좋은 예”라고 말했다.
■ 서버단 AI 개발 지원 확장세
생성형 AI 또한 전례 없는 속도로 새로운 버전의 언어 모델이 출시되는 등 AI 혁신의 물결에 박차를 가하고 있다. Arm은 개발자가 앞서 나갈 수 있도록 AWS, Google과 같은 클라우드 서비스 제공업체, 그리고 빠르게 성장하고 있는 Databricks와 같은 ML ISV 커뮤니티를 비롯한 ML 스택의 모든 주요 부분과 긴밀히 협력하고 있다.
Google Cloud 제품 관리 시니어 디렉터인 니라브 메타(Nirav Mehta)는 “Arm과 구글은 개발자의 AI 접근성과 민첩성을 높이기 위해 노력하고 있으며, Kleidi는 AI 요구사항에 맞게 하드웨어와 소프트웨어를 공동 최적화하는 데 큰 진전을 이뤘다”고 말했으며, Databricks의 소프트웨어 엔지니어인 린 유안(Lin Yuan)은 “ML 런타임 클러스터에서 지원하는 Arm 기반 AWS Graviton 프로세서를 통해 기업은 광범위한 ML 라이브러리의 속도를 높이는 동시에 클라우드 서비스 제공업체의 비용을 절감하는 이점을 누릴 수 있다”고 전했다.
개발자가 Arm이 제공하는 리소스를 실제 사용 사례에 적용하는 것이 중요하기 때문에 Arm은 개발자에게 Arm CPU에서 AI 워크로드를 구축하는 방법을 보다 정확히 보여주기 위해 학습 경로와 함께 데모 소프트웨어 스택을 제작하고 있다.
2024년 말에는 ML 운영 및 검색 증강 생성(RAG)이 이러한 사용 사례에 추가될 것이며, 2025년에는 더 많은 사용 사례가 추가될 예정이라고 Arm은 전했다.
■ 엣지에서도 성능 향상 추진 지속
엣지에서의 Kleidi의 모멘텀을 바탕으로, KleidiAI는 PyTorch의 새로운 온디바이스 추론 런타임인 ExecuTorch에 통합될 계획이다. 이 통합은 2024년 10월에 완료될 예정이며, 현재 ExecuTorch에서 프로덕션 테스트 중이거나 출시 중인 앱 전반에서 엣지 디바이스의 성능이 크게 향상될 전망이다.
이는 Google의 XNNPACK 및 MediaPipe, 그리고 Tencent의 Hunyuan LLM 등 Arm이 이미 발표한 여러 KleidiAI 통합에 합류된다. 챗봇 데모에서 실제 워크로드에 미치는 영향에 대한 자세한 내용을 확인할 수 있다.
Kleidi가 다른 모든 주요 AI 프레임워크와 함께 PyTorch 및 ExecuTorch 릴리스와 계속 통합됨에 따라 개발자는 클라우드 데이터 센터에서 엣지 디바이스에 이르는 다양한 디바이스에서 Arm에서 AI 워크로드를 즉시 실행할 수 있다.
Arm은 앞으로도 PyTorch 커뮤니티에 개선 사항을 적극적으로 도입할 예정이며, 향후 다양한 정수 형식에 대한 양자화 최적화를 제공하여 성능을 더욱 향상시키는 데 주력할 계획이다.