▲CEVA, 향상된 NeuPro-M NPU IP 제품군 출시(이미지:CEVA)
350 TOPS/와트 제공, 비용·전력 효율성 극대화
클라우드부터 에지까지 AI 추론 기술 실현을 위해 NPU를 사용한 저전력, 저비용 추론 프로세싱 활용이 늘고 있다.
맞춤형 시스템온칩(SoC) 기업인 CEVA가 향상된 NeuPro-M(뉴프로-M) NPU를 출시했다고 10일 밝혔다.
NeuPro-M NPU는 클라우드에서 에지까지 모든 AI 추론 워크로드에 업계 최고의 성능과 전력 효율성을 바탕으로 차세대 생성형 AI(Generative AI)의 요구 사항을 충족시킬 것으로 기대했다.
NeuPro-M NPU 아키텍처 및 툴은 합성곱 신경망(CNN, Convolution Neural Network)과 기타 네트워크 외에도 트랜스포머 네트워크(transformer network)와 미래의 머신러닝 추론 모델을 지원할 수 있도록 재설계됐다.
이를 통해 NeuPro-M NPU는 △통신 게이트웨이(communication gateway) △광학 네트워크 △자동차 △노트북 및 태블릿 △AR/VR 헤드셋 △스마트폰 △기타 클라우드 또는 에지 환경에서 생성형과 기존 AI의 기능을 최적화한 애플리케이션을 원활하게 개발하고 실행할 수 있다.
향상된 NeuPro-M 아키텍처는 통합 벡터 프로세싱 유닛(VPU, Vector Processing Unit)는 다양한 용도에 사용될 수 있으며, 미래에 개발될 네트워크 계층을 지원할 수 있다. 또한, 모든 활성화(activation)와 데이터 흐름을 지원하며, 데이터와 가중치(weight)의 실제 스파시티(true sparsity)를 통해 최대 4배의 성능 가속화가 가능하다.
소비자는 단일 NPU 제품으로 다양한 애플리케이션과 시장에 대응할 수도 있다. NeuPro-M은 다양한 AI 시장에서 요구되는 확장성을 높이기 위해 새로운 NPM12 및 NPM14 NPU 제품을 추가하여 각각 두 개와 네 개의 NeuPro-M 엔진을 포함시켰다.
따라서 고성능 AI 워크로드로 쉽게 마이그레이션이 가능해졌으며, 현재는 △NPM11 △NPM12 △NPM14 △NPM18 총 4개의 NPU제품군으로 구성됐다.
NeuPro-M은 3nm 프로세스 노드에서 350 TOPS/와트의 최고 성능을 발휘하며, 트랜스포머 기반 LLM 추론 작업에서 초당 1.5백만 개 이상의 토큰 처리가 가능하다.
아키텍처는 NeuPro-M 병렬 처리 엔진 기반이며 소비자의 AI 애플리케이션 성능 극대화를 위해 아키텍처를 인식하는 CEVA의 네트워크 AI 컴파일러 CDNN을 기반으로 한 혁신적인 종합 개발 툴 체인을 통해서 지원된다.
CDNN 소프트웨어에는 메모리 대역폭 최적화와 최적의 로드 밸런싱 알고리즘을 위한 메모리 매니저가 포함되어 있으며, TVM 및 ONNX를 비롯한 일반적인 오픈 소스 프레임워크와 호환된다.
CEVA의 비전 비즈니스 유닛 부문 부사장이자 제너럴 매니저인 랜 스니르(Ran Snir)는 “생성형 AI를 구동하는 트랜스포머 기반 네트워크는 컴퓨팅과 메모리 리소스의 대폭적인 증가를 필요로 한다”며 “이러한 컴퓨팅 및 메모리의 수요 증가를 충족하기 위해 새로운 접근 방식과 최적화된 프로세싱 아키텍처가 요구된다”고 설명했다.
그는 “이 아키텍처를 통해 향상된 성능은 비용에 민감한 에지 디바이스부터 높은 효율의 클라우드 컴퓨팅까지 모든 사용 사례에 생성형 AI의 놀라운 가능성을 제공한다”고 말했다.
ABI 리서치는 에지 AI 출하량이 2023년 24억 개에서 2028년 65억 개로 연평균 성장률(CAGR)이 22.4%로 증가할 것으로 예측했다. 생성형 AI는 이러한 성장을 뒷받침하는 핵심적인 역할을 할 것으로 예상되며, 더욱 정교하고 지능적인 에지 애플리케이션은 더 강력하고 효율적인 AI 추론 기술을 요구하고 있다.
특히 생성형 AI에 사용되는 대규모 언어 모델(LLM)과 비전(vision) 및 오디오 변환기는 제품과 산업을 혁신할 수는 있지만, 에지 디바이스 실행 시 △성능 △전력 △비용 △레이턴시 △메모리 측면에서 새로운 문제를 야기했다.
ABI 리서치 시니어 애널리스트 리스 헤이든(Reece Hayden)은 “오늘날 생성형 AI의 하드웨어 시장은 소수의 벤더가 주도하는 형태에 크게 집중되어 있다”며 “AI 추론 기술 실현을 위해서는 더욱 작은 크기의 모델과 효율적인 하드웨어를 사용해 클라우드 및 에지에서 저전력, 저비용 추론 프로세싱을 위한 명확한 전략이 필요하다”고 지적했다.
그는 “CEVA의 NeuPro-M NPU IP는 최소한의 전력 소모로 디바이스에 생성형 AI를 배치하기 위한 제안을 제공한다”며 “또한, NeuPro-M의 확장성은 네트워크 장비 혹은 그 이상의 초성능을 요구하는 사용 사례에 적용할 수 있게 한다”고 말했다.
추론 및 모델링 기술의 발전을 통해, 에지 디바이스 수준에서 작동하는 소규모 도메인 특화 LLM, 비전 트랜스포머(vision transformer) 및 기타 생성형 AI 모델을 활용하는 새로운 기능들이 △인프라 △산업 △모바일 △소비자 △자동차 △PC △모바일 시장의 애플리케이션을 혁신하고 있다.