홍콩, 2015년 3월 3일 — Altera(NASDAQ: ALTR)는 Microsoft(NASDAQ: MSFT)가 Altera Arria® 10 FPGA(field programmable gate array)를 채택함으로써 CNN(convolutional neural network) 알고리즘을 기반으로 한 데이터 센터 가속화로 비약적으로 향상된 와트당 성능을 달성했다고 밝혔다. CNN 알고리즘은 이미지 분류, 이미지 인식, 자연 언어 프로세싱에 널리 사용되고 있다.
Microsoft의 연구진은 클라우드 기술을 향상시키기 위한 연구를 하고 있는데, Arria 10 개발자 키트와 Arria 10 FPGA 엔지니어링 샘플을 이용함으로써 와트당 40GFLOPS에 이르는 성능을 달성하게 되었다. 이것은 데이터 센터 성능으로서 업계에서 가장 뛰어난 수준이다. 또한 GPGPU를 이용했을 때와 비교해서 이와 같은 FPGA 성능은 CNN 플랫폼으로 전력대 성능비가 3배 이상 더 우수한 것이다. 오픈 소프트웨어 개발 언어인 OpenCL이나 또는 VHDL을 이용해서 Arria 10 FPGA와 이의 IEEE754 하드 부동소수점 DSP(digital signal processing) 블록을 코딩함으로써 이와 같은 성능을 달성하게 되었다.
Microsoft Research의 클라이언트 및 클라우드 앱 이사인 Doug Burger는 “우리 연구진은 Arria 10 엔지니어링 샘플을 이용함으로써 CNN 성능과 전력 효율에 있어서 비약적인 향상을 이룰 수 있었다. 이 실리콘에 통합하고 있는 DSP 블록의 정밀 하드 부동소수점 연산이 이와 같은 도약적인 성능 결과를 달성할 수 있었던 한 요인이다”고 말했다. Microsoft의 블로그(http://bit.ly/1MMMzvG)로 들어가면, Burger 이사가 인프라 차원에서 데이터 센터가 직면하고 있는 과제들에 대해서 살펴보고 어떻게 기존의 CPU를 재프로그램가능 FPGA로 교체함으로써 Microsoft가 이와 같은 과제들을 해결할 수 있게 되었는지에 대해서 설명하는 기사를 볼 수 있다.
Altera의 연산 및 스토리지 사업부 이사인 Michael Strickland는 “FPGA는 유연한 데이터 패스를 활용함으로써 컨벌브(convolve)와 풀링(pooling)을 매우 효율적으로 할 수 있으므로 아키텍처 차원에서 신경망 알고리즘에 이용하기에 유리하다. 그럼으로써 많은 OpenCL 커널들이 외부 메모리로 나갈 필요 없이 상호 간에 직접적으로 데이터를 전달할 수 있다. Arria 10은 또 곱셈과 덧셈 둘 다에 대해서 하드 부동소수점을 지원한다는 점이 또 다른 아키텍처적 이점이다. 그럼으로써 이 하드 부동소수점은 기존 FPGA 제품보다 더 많은 여유 로직을 활용할 수 있게 하고 더 빠른 클록 속도를 가능하게 한다”고 말했다.
Altera는 앞서 Microsoft가 올해 하반기에 완공할 예정인 최초의 Bing 데이터 센터의 서버에 이용하고자 혁신적인 Catapult 보드로 검색을 가속화하기 위해서 자사의 Stratix V FPGA를 채택하였다고 밝힌 바 있다.
업계 평가
하드 부동소수점 DSP를 통합한 Altera 20nm FPGA를 이용함으로써 뛰어난 성능과 전력 효율 달성
많은 업체들이 온보드로 하드 부동소수점 DSP를 통합한 Altera Arria® 10 FPGA 제품을 이용해서 비약적으로 향상된 와트당 성능을 달성하고 있다. Altera는 여러 고객사 및 파트너사와 긴밀한 협력을 통해서 HPC(high performance computing), 데이터 센터 가속화, 금융 시스템에 이용하기 위한 솔루션들을 개발하고 있다.
Microsoft – Doug Burger, 클라이언트 및 클라우드 앱 이사, Microsoft Research
Microsoft Research의 클라이언트 및 클라우드 앱 이사인 Doug Burger는 “우리 연구진은 Arria 10 엔지니어링 샘플을 이용함으로써 CNN 성능과 전력 효율이 비약적으로 향상된다는 것을 볼 수 있었다. 이 실리콘에 통합하고 있는 DSP 블록의 정밀 하드 부동소수점 기능이 이와 같은 도약적인 성능 결과를 달성할 수 있었던 한 요인이다”고 말했다. Microsoft 블로그(http://bit.ly/1MMMzvG) 참조.
Bittware - Jeff Milrod, 사장/CEO, Bittware
Bittware의 사장이자 CEO인 Jeff Milrod는 “Altera의 Arria 10은 진정한 ‘게임 체인저(game changer’가 될 것이다. 이들 디바이스는 온보드로 네이티브 부동소수점 엔진을 제공함으로써 시스템 디자이너들이 FPGA로 지극히 간편하게 그러면서도 뛰어난 전력 효율로 대대적인 부동소수점 자원을 활용할 수 있게 한다. 이제는 고전적 신호 프로세싱 애플리케이션들이 아날로그 신호를 곧바로 Arria 10으로 인터페이스시키고 여기서 부동소수점으로 처리할 수 있게 되었다. HPC와 가속화 애플리케이션에서는 FPGA 알고리즘을 더 이상 고정소수점으로 이식해야 하거나 또는 비효율적으로 부동소수점의 고정소수점 에뮬레이션으로 구현할 필요가 없게 되었다. Arria 10의 네이티브 부동소수점은 더 높은 Fmax를 이용해서 40 GFLOPS/W 이상을 달성한다. 그러면서도 1/3의 로직 자원만을 사용한다. 그럼으로써 이전의 여타 솔루션들에 비해서 더 간편하게 사용할 수 있고, 전력을 낮추고, 더 빨라지고, 자원 사용을 줄일 수 있게 되었다”고 말했다.
Gidel - Reuven Weintraub, 창업자/CTO, Gidel
Gidel의 창업자이자 CTO인 Reuven Weintraub는 “우리는 Altera Arria 10의 유례 없이 뛰어난 전력대 flops 성능에 흥분을 감추지 못하고 있다. 이전부터 FPGA는 비트, 바이트, 그리고 정수 프로세싱으로 뛰어나게 우수한 전력대 성능비를 달성해 왔다. Altera Arria 10의 놀랍도록 비약적인 전력대 부동소수점 연산 성능은 Gidel 제품을 더욱 더 다양한 분야의 HPC 및 DSP 애플리케이션에 이용할 수 있게 할 것”이라고 말했다.
Nallatech - Allan Cantle, 사장/창업자, Nallatech
Nallatech의 사장이자 창업자인 Allan Cantle은 “Nallatech는 Altera의 OpenCL 컴파일러를 이용해서 부동소수점 연산을 필요로 하는 여러 고객의 프로덕션 코드를 이식하고 있다. 이를 위해서 전용적인 부동소수점 DSP를 제공하는 새로운 Arria 10 FPGA를 이용함으로써 로직 자원 사용을 줄이고, 클록 주파수를 높이고, 와트당 성능 지수는 더욱 더 향상시킬 수 있게 되었다. 그럼으로써 Nallatech의 새로운 Arria 10 기반 가속화기를 더욱 더 다양한 분야의 애플리케이션들에 사용하기에 적합하게 되었다”고 말했다.
ReFLEX CES - Yann Casteignau, 수석 엔지니어, ReFLEX CES
ReFLEX CES의 수석 엔지니어인 Yann Casteignau는 “ReFLEX CES가 Altera Arria 10 FPGA를 기반으로 최근에 출시한 FPGA 보드는 이 10세대 FPGA 제품군에 구현하고 있는 새로운 부동소수점 DSP 블록에 힘입어서 많은 이점들이 가능하게 되었다. 우리가 목표로 하는 것은 고객들이 GFLOPS/W 성능을 대대적으로 향상시키면서(3배의 향상 기대) 동시에 복잡한 부동소수점 연산에 필요로 하는 로직은 줄임으로써, 되도록이면 최대의 여유 공간을 남겨서 커스텀 디자인 구현에 사용할 수 있게 하는 것이다. 우리 회사의 많은 고객들이 고성능 컴퓨팅에 ReFLEX CES 보드를 사용하고 있는데 무엇보다도 중요한 과제가 전력 소모이다. Arria 10 FPGA를 이용함으로써 더 높은 컴퓨팅 성능을 달성하면서 전력 소모는 줄일 수 있게 되었다. Arria 10의 새로운 하드구현 DSP 부동소수점 연산은 ReFLEX CES 보드가 성능은 향상시키고, 로직 필요량은 줄이고, GFLOPS/W 성능을 극대화할 수 있도록 결정적인 역할을 하고 있다”고 말했다.