반도체 AI 보안 인더스트리 4.0 자동차 스마트 IoT 컴퓨터 통신 특수 가스 소재 및 장비 유통 정책 e4ds plus

[2025 e4ds Tech Day]문현수 ST마이크로일렉트로닉스 과장①, “STM32N6 에너지 제약이 있는 환경서 엣지 AI 최적 성능 제공”

기사입력2025.08.19 10:41

“STM32N6 에너지 제약이 있는 환경서 엣지 AI 최적 성능 제공”
 
DSP·AI 모델 추론 필요한 벡터·행렬 연산 하드웨어 수준에서 가속
최대 600 GOPS 연산 성능 다양한 인공 신경망 모델 효율적 처리

[편집자 주] 온디바이스 AI는 클라우드 의존도를 낮추고, 지연, 전송비, 전력소모를 줄일 수 있는 장점으로 산업 및 의료, 스마트홈 등에서 적용이 확대되고 있다. 이러한 어플리케이션 확대에 힘입어 2030년 엣지 AI 탑재 MCU 출하량은 18억대로 전망되고 있으며, 개발자들의 MCU 선택도 중요한 개발 포인트가 될 것으로 보인다. 이런 가운데 ST마이크로일렉트로닉스의 STM32N6 MCU는 독자 Neural-ART Accelerator™를 탑재하고, 별도 SoC 없이도 MCU 단일 칩으로 실시간 고해상도 AI 비전 처리가 가능하다. 이에 부품비 절감 및 설계 단순화로 시장에서 우위를 확보할 수 있다. 이런 가운데 ST는 오는 9월9일 개최되는 ‘2025 e4ds Tech Day’ 행사에서 ‘STM32N6 기반 ST Edge AI 솔루션’을 주제로 발표할 예정이다. 이에 본지는 이번 행사에서 발표를 맡은 문현수 ST 과장과의 인터뷰를 통해 ‘STM32N6 기반 ST Edge AI 솔루션’에 대해 들어보는 자리를 마련했다.
 


■ STM32N6 기반 ST 엣지 AI 솔루션의 핵심 기능은

엣지 AI는 산업 및 자동차 응용 분야에 임베디드 마이크로컨트롤러, 마이크로프로세서, 센서와 같은 디바이스에서 AI 알고리즘과 머신러닝 모델을 직접 실행하는 기술을 의미한다.


엣지 디바이스에서 수집한 데이터를 AI 모델로 즉시 추론하기 때문에 실시간 데이터 처리가 가능해져 더 빠른 응답 시간, 향상된 데이터 보안, 그리고 더 높은 대역폭 효율성을 제공한다.

STM32N6는 엣지 AI 구현에 최적화된 ST의 최신 고성능 마이크로컨트롤러(MCU)다.

우선, 800MHz로 작동하는 Arm® Cortex®-M55 코어와 ST의 독자적인 NPU(Neural Processing Unit)인 Neural-ART Accelerator™가 탑재돼 있다.

이 NPU를 기반으로 사전 학습된 인공 신경망 모델을 매우 효율적으로 처리한다.

명령어 패치(fetch), 디코딩(decoding), 실행(execution)의 순차적 처리 방식으로 설계된 전통적인 내장형 프로세서 코어는 AI 모델을 최적화된 성능으로 실행하는 데 한계가 있다.

이는 신경망 계산 토폴로지에 상당한 양의 메모리 액세스와 누적 및 곱셈 연산이 포함되는 경우가 많은데 이러한 연산은 기존 순차적 아키텍처에서 최적화되지 않기 때문이다.

따라서 전력 소비와 실리콘 면적에 대한 일반적인 내장 제약 조건 내에서 빠르고 효율적인 AI 추론을 수행할 수 있는 다른 아키텍처가 필요하다.

이러한 요구 사항을 해결하기 위해 신경망 처리 장치(NPU)가 등장했다.

NPU는 고효율이기 때문에 마이크로컨트롤러 기반 애플리케이션과 같이 에너지 제약이 있는 환경에 특히 적합하다.

저전력 소비량을 유지하면서 엣지 AI 적용을 다양하게 처리할 수 있는 최적의 솔루션을 제공한다.

NPU와 마이크로컨트롤러의 통합은 MCU의 기능을 크게 확장하여 이전에는 불가능했던 복잡한 AI 작업도 처리할 수 있게 해준다.

기존에 MCU는 제한된 처리 성능과 에너지 효율로 인해 저해상도 사진 분석, 시계열 분석 또는 낮은 프레임 속도와 같은 간단한 AI 애플리케이션에 제한적으로 사용됐다.

하지만 이제 NPU가 더해지면서 이러한 마이크로컨트롤러는 빠르게 움직이는 사물 분할 위치 파악, 자세 추정, 사물 분류, 음성 인식과 같은 고급 AI 기능을 수행할 수 있게 됐다.

AI 추론 작업을 NPU로 오프로드하면 MCU는 다른 중요한 기능에 집중하여 효율적인 실시간 처리가 가능해진다.

ST는 2016년부터 Neural-ART 가속기 개발에 매진해왔으며, 2019년에 출시한 STM32Cube.AI 소프트웨어 솔루션도 당시 ST Neural-ART Accelerator 연구 개발에서 영향을 받았다.

이후 업계가 STM32Cube.AI를 채택하고 엔지니어들이 혁신적인 엣지 AI 제품을 만드는 데 저희 솔루션을 활용하는 모습을 보면서, 저희는 Neural-ART 가속기를 진화시켜 독창적인 제품으로 발전시켜왔다.

현재 다른 어떤 범용 MCU 제조사도 이처럼 맞춤화 및 최적화가 진행된 엣지 AI용 하드웨어 및 소프트웨어 에코시스템을 갖추고 있지 못하다.

Arm® Cortex®-M55 코어는 Armv8.1-M 아키텍처에 포함된 헬리움(Helium) 이라는 MVE(M-Profile Vector Extension) 기술을 통해서 신호처리(DSP)와 AI 모델 추론에 필요한 벡터와 행렬 연산을 하드웨어 수준에서 가속할 수 있다.

또한, 사용자 친화적인 온라인 툴과 도구와 ‘ST 엣지 AI 스위트(ST Edge AI Suite)’와 같은 소프트웨어를 제공하여 개발자가 STM32N6로 빠르고 효율적인 방식으로 머신 러닝 알고리즘을 개발, 평가 및 배포할 수 있도록 지원한다.

■ 경쟁사 또는 대체 기술 대비 이 솔루션만의 차별화 요소는 무엇이라고 생각하는지

STM32N6 기반 고성능 엣지 AI 구현이 가능하도록 △Neural-ART NPU를 통한 복잡한 신경망 모델 실행 △하드웨어 가속 기반의 실시간 처리 △고해상도 이미지와 고샘플링 주파수 데이터 처리 △다양한 신경망 모델을 병렬 실행할 수 있다.

첫째, STM32N6는 ST의 독자적인 설계로 개발된 Neural-ART Accelerator™를 내장하여, 최대 600 GOPS의 연산 성능으로 다양한 인공 신경망 모델을 효율적으로 처리할 수 있는 강력한 온디바이스 AI 기능을 제공한다.

특히 1GHz로 동작하는 NPU와 800MHz Cortex-M55 CPU, Arm 헬리움(Helium) 기반의 벡터 연산 지원을 통해 고성능 추론을 매우 낮은 전력으로 실행할 수 있는 것이 큰 강점이다.

둘째, 외부의 별도 영상처리 칩 없이도 실시간 영상 처리 및 추론을 STM32N6인 MCU에서 수행할 수 있다.

내장된 ISP(Image Signal Processor)와 효율적인 픽셀 파이프라인, MIPI CSI-2 인터페이스를 포함하고 있기 때문이다.

이러한 NPU, ISP, CSI-2 인터페이스, H.264 인코더, 네오크롬(NeoChrom) 그래픽 가속기까지 통합된 아키텍처는, 외부 SoC나 전용 처리 장치 없이도 E2E(End-to-End) AI 비전 애플리케이션을 구현할 수 있게 해주며, 시스템 복잡도와 부품원가(Bill of Material)를 획기적으로 절감할 수 있다는 점에서 매우 차별화된 솔루션이다.

■ 개발자들이 온디바이스 AI를 위해 STM32Cube.AI나 기타 SDK를 어떻게 하면 잘 사용할 수 있는지 힌트를 준다면

온디바이스 AI를 효과적으로 구현하기 위해서는STM32Cube.AI와 함께 제공되는 ST의 STM32 Model Zoo GitHub를 적극 활용하는 것이 좋다.

STM32 Model Zoo에는 STM32에 최적화된 다양한 사전 학습된 인공 신경망 모델과 예제 코드가 포함되어 있어, 복잡한 모델 구성 없이 빠르게 평가와 개발을 시작할 수 있다.

또한, STM32N6 전용으로 제공되는 AI 애플리케이션 예제(사람 감지, 객체 분류 등)를 참고하면, 하드웨어 설정부터 인공 신경망 모델의 변환, 실시간 추론 처리까지의 전체 워크플로를 쉽게 이해하고 적용할 수 있다.

이러한 자료들을 활용하면 온디바이스 AI에 처음 도전하는 개발자도 짧은 시간 내에 프로토타입을 구축하고, 실제 제품 개발로 자연스럽게 확장할 수 있다.

타겟 디바이스 별 툴 사용을 제안하면 모든 ST 디바이스용으로는 ST Edge AI Core CLI 버전과 ST Edge AI Developer Cloud는 사용자가 모든 ST 하드웨어에서 AI 모델 성능을 최적화하고 평가할 수 있도록 한다.

STM32 MCU용으로 STM32Cube.AI (X-CUBE-AI)는 신경망 최적화를 지원한다. NanoEdge AI Studio는 AutoML 도구다.

STM32 MPU용으로 개발자는 OpenSTLinux(X-LINUX-AI)용 AI와 Linux AI 프레임워크용 STM32MP2 오프라인 컴파일러를 사용할 수 있다.

Stellar MCU용으로 StellarStudioAI는 신경망 최적화 및 배포를 위한 소프트웨어 패키지다.

머신러닝 코어가 탑재된 MEMS 센서용으로 온라인 툴 ST AIoT Craft와 데스크톱 툴 MEMS Studio를 사용해 데이터 분석, 알고리즘 설계 및 모델 최적화를 수행할 수 있다. MLC model zoo는 사전 최적화된 모델을 제공한다.

ISPU가 탑재된 MEMS 센서용으로는 MEMS Studio가 데이터 분석 및 모델 최적화를 지원한다. ISPU model zoo는 사전 최적화된 모델을 제공한다.

■ STM32N6가 온디바이스 AI 시장에서 주목받는 이유는 무엇이며, 클라우드 기반 AI 대비 온디바이스 AI의 핵심 장점을 어떻게 구현하고 있는지

인공 지능(AI)이 점점 보편화되고 데이터 수집이 기하급수적으로 증가하면서 모든 데이터를 클라우드에서 원격으로 처리하는 것은 유지가 불가능하고 비현실적인 일이 됐다.

다양한 제품과 애플리케이션에 AI를 광범위하게 도입하려면 보다 효율적인 로컬에서의 처리 솔루션, 즉 엣지 AI가 필요하다.

솔루션 개발자는 신경망 가속기가 내장된 첨단 마이크로컨트롤러로 엣지 디바이스에서 바로 AI의 성능을 활용할 수 있다.

이러한 접근 방식은 전력 소비량 감소, 네트워크 부하 감소, 지연 시간 단축 등 상당한 이점을 제공하며, 이를 통해 보다 빠르고 우수한 응답성의 AI 기반 애플리케이션을 구현할 수 있다.

ABI Research에 따르면, 엣지 AI 시장은 향후 10년간 크게 성장할 것으로 전망된다.

이 데이터는 농업, 자동차, 무선 네트워크, 의료, 제조, 개인 및 업무용 디바이스, 소매, 로보틱스 등 다양한 업종에서 엣지 AI 애플리케이션용 마이크로컨트롤러의 사용이 크게 늘어날 것을 예측하며, 2030년에는 유닛 수가 약 18억 대에 도달할 것으로 예상했다.

STM32N6는 이러한 온디바이스 AI라는 시장 트렌드에 최적화된 제품이다.

STM32N6는Arm® Cortex®-M55(800 MHz) 기반의 고성능 CPU와 함께 Arm 헬리움(Helium)벡터 연산 기술을 활용해 DSP 및 AI 연산 성능을 획기적으로 향상시켰다.

여기에 ST가 독자적인 설계로 개발한 Neural-ART Accelerator™(1 GHz NPU, 최대 600 GOPS)가 통합돼, 효율적인 전력으로 실시간 추론을 가능하게 한다.

또한 STM32N6는MIPI CSI-2 인터페이스 및 내장 ISP를 통해 고해상도 카메라 연결과 영상 처리에 강점을 가지며, H.264 인코더와 NeoChrom 그래픽 가속기까지 통합돼 있어 비전 AI 및 UI(User Interface) 중심 애플리케이션에 매우 적합하다.

이러한 특성 덕분에 STM32N6는 산업용 및 소비자용 제품에서 기존 방식인 클라우드의 의존도를 낮추고, 더 빠르고 안전하며 효율적인 AI 기능을 온디바이스에서 직접 구현할 수 있어, 차세대 엣지 AI 플랫폼으로서 큰 주목을 받고 있다.

한편 ST는 오는 9월9일 ST센터에서 개최되는 ‘2025 e4ds Tech Day’에 참가해 ‘STM32N6 기반 ST Edge AI 솔루션’이라는 주제로 발표할 예정이다. ‘2025 e4ds Tech Day’ 접수는 공식 홈페이지(https://www.e4ds.com/conference/techday/)에서 할 수 있다.

2편에서 계속