최근 모바일 시장 강세에 영향을 받아 데이터센터용 서버에 대한 투자 규모도 확대되고 있다. 여러 명의 사용자가 동시에 다양한 애플리케이션을 지연없이 사용할 수 있도록 하는 기술이 주목받는 가운데 256GB/s의 데이터 송수신이 오는 2022년 실현될 전망이다. PCIe Gen6 시대를 대비해 서버 성능을 최적화하는 방법에 대해 인텔 현직 엔지니어에게 들었다.
CPU 가상화·FPGA 가속화·256GB 대역폭 3단 조화로 IO 최적화 실현
인텔, FPGA 기반 가속기 Card로 Gen4·Gen5 환경에서 레이턴시 최소화
"서버 시장 규모가 증가함에 따라 대용량 데이터를 빠르고 정확하게 처리할 수 있는 기술력도 점차 중요해지고 있습니다. CPU 설계 노하우를 바탕으로 FPGA를 개발하는 것을 넘어 PCI Express 규격에 맞는 IO 최적화를 꾀합니다"
5G 초연결 시대를 맞아 다양한 융합서비스를 제공할 수 있는 데이터센터의 수요가 지속 증가세다. 클라우드, 엔터프라이즈, 에지 리소스 등 네트워크 요구 사항을 충족하기 위해 최근 데이터센터용 서버에 대한 투자가 점차 늘어나고 있다.
FPGA는 그동안 그래픽카드를 대체하는 빠른 계산력으로 획기적인 기술이란 평가를 받았지만 데이터센터용 서버에서 이를 인정받기 시작한지는 불과 1~2년 정도에 지나지 않는다. 사용자가 원하는 환경에 맞춰 전용 가속기를 만들 수 있는 프로그래머블 칩 FPGA는 머신러닝을 비롯한 특정 금융 솔루션, 영상 처리와 유전자 연구 등에서 병렬 처리를 통해 성능을 크게 향상시켰다.
특히 최근 모바일 시장 강세의 영향으로 FPGA 기반 가속기가 데이터 시장에서 주목받고 있다. 실제로 구글, 마이크로소프트, 아마존 등 하이퍼스케일 데이터센터 운영 기업을 포함해 국내에서는 네이버, 카카오, SKT, KT 등이 FPGA 기반 액셀러레이션에 많은 비용을 지출하고 있다.
GPU는 적용 분야가 머신러닝 등에 제한적이고 ASIC은 투자비용이 많이 들어가는 반면 FPGA는 하드웨어 아키텍처에서 프로그램을 바로 사용할 수 있고 개발자가 원하는 환경을 구현할 수 있어 활용범위가 넓기 때문이다.
▲ HPE ProLiant DL380 Gen10 server and Intel FPGA PAC D5005 <사진=인텔>
FPGA 칩을 활용한 가속기 카드를 제공하는 업체는 자일링스와 인텔이 대표적이다. 자일링스는 지난 2018년 알비오 U250을 발표하고 2019년 양산을 시작했다. 인텔은 지난해 8월 FPGA 기반의 PCIe 카드형 하드웨어 가속장치 Intel FPGA PAC DL380 Gen10을 공개했다.
향후 FPGA 가속기 애플리케이션에서는 대량의 데이터를 보다 빠르고 효율적으로 송수신할 수 있는 인터페이스에 대한 요구가 증가할 것으로 예상됨에 따라 인텔은 PCIe Gen5에 쓰일 수 있는 가속기 Card를 제공할 예정이다. 대용량 데이터를 송수신하는 인터페이스에는 이더넷, 트랜시버, PCIe 등이 사용되고 있다.
지난 4월 인텔이 공개한 10나노 공정의 FPGA 애질렉스는 차세대 인터페이스 CXL(Compute eXpress Link interfaces) 규격과 PCIe Gen5를 지원한다. CPU와 GPU 등의 전용 가속기와 사용할 경우 충분한 대역폭을 확보할 수 있어 레이턴시(latency)를 최소화할 수 있다.
▲ 인텔코리아 이남훈 부장
데이터센터에서의 가속기 사용 규모가 오는 2022년까지 260억 달러에 이를 것으로 전망됨에 따라 인텔코리아 이남훈 부장을 만나 FPGA 가상화 및 가속기에 관한 주요 쟁점에 대해 들었다.
Q. 지난해부터 PC나 IDC 서버에서 FPGA 가속기 사용이 늘어나면서 가속기라는 용어도 보편화되는 추세입니다. 기존 GPU의 역할을 FPGA가 대신하는 것을 넘어 최근에는 AI 가속기 등에 대한 수요도 늘고 있습니다. FPGA 가속기가 그래픽카드 대비 어떠한 경쟁력을 갖고 있나요?
FPGA의 경쟁력은 빠른 계산력을 들 수 있죠. 여기에 높은 대역폭까지 지원하고 있어 저지연을 요구하는 애플리케이션에 이상적인 솔루션이라 할 수 있습니다.
FPGA 가속기는 많은 양의 데이터를 송수신할 수 있는 능력을 요구받고 있습니다. 이에 따라 PCIe도 점차 발전하는 추세죠. 인텔은 FPGA와 PCIe 사이의 속도를 높이기 위해 가속기 card를 제공 중입니다.
서버에 카드 형태로 꽂는 PAC(Programmable Acceleration Card) Card는 CPU에서는 수십초가 걸리는 일을 FPGA를 통해 수초 내로 처리할 수 있도록 도와줍니다. 예를 들어 사용자가 AI를 구현하길 원한다고 가정할 경우 특정 퍼포먼스를 CPU는 처리하지 못할 수 있지만 FPGA에서는 충분히 구현 가능합니다.
다만 FPGA의 빠른 처리 속도를 CPU에 제공하려면 대역폭을 넓힐 필요가 있습니다. 앞서 말한 레이턴시와 대역폭이 중요한 이유죠.
Q. PCI Sig에서는 오는 2021년까지 PCIe Gen6 개발을 마무리한 후 2022년에 시장에 본격 출시할 것으로 발표했는데요. 현재 PCIe Gen4가 64GB/s 대역폭에 16GT/s 비트전송률로 알고 있습니다. 대역폭 확장이 필요한 이유에 대해 설명해주시겠습니까?
클라우드나 AI 등을 활성화시킨데 기여한 스마트폰을 예로 들어보겠습니다. 스마트폰에서 사용자가 사진을 찍어 올린다고 가정해보죠.
스마트폰에서 전송된 데이터는 이더넷을 통해 서버로 전달됩니다. 서버에서는 이를 처리하기 위해 PCI 인터페이스를 가장 많이 사용하고 있습니다.
PCI 인터페이스에서 데이터를 CPU로 곧바로 전달하면 메모리 요구량도 커질뿐만 아니라 처리시간도 늘어나게 됩니다. 이를 FPGA를 사용해 압축한 후 CPU에 저장하면 용량과 시간 모두 줄일 수 있죠.
현재 PCIe Gen4에서는 64GB/s, Gen5에서는 128GB/s의 대역폭을 갖고 있습니다. 데이터를 전송하기 위해 사용되는 데이터센터의 이더넷을 보면 과거에는 10GB/s, 현재 25GB/s, 향후에는 100~400GB/s가 구현될 것으로 예상하고 있습니다.
400GB/s의 데이터를 빠르게 처리한 후 사용자에게 실시간 수준으로 전달하기 위해서는 PCIe의 대역폭도 동시에 향상되어야 하죠.
다른 예를 하나 더 들자면 주식을 꼽을 수 있습니다. 주식은 피크(peak)를 찍는 시점에 지연없이 실시간 수준으로 소비자에게 정보가 전달되어야만 합니다.
빠른 계산능력과 저지연을 강점으로 하는 FPGA를 활용하고 이를 전송할 수 있는 PCIe의 대역폭을 넓혀야만 하는 이유죠.
▲ CPU와 FPGA 가상화를 위해서는 PCIe 대역폭 확장이 필요하다
Q. FPGA는 항상 GPU를 대체하는 칩으로 각광받아 왔습니다. 요즘 GPU 분야에서는 VMWare 같은 가상환경을 기반으로 한 AI 개발에 박차를 가하고 있는데요. 고성능 디지털 시그널 프로세싱을 하는 FPGA도 가상화 부분에서 빼놓을 수 없을 듯합니다.
물론입니다. 최근 머신러닝, 딥러닝, AI, 클라우드 등의 ICT 기술이 기업은 물론 소비자들에게도 관심을 받기 시작하면서 데이터센터용 서버에서는 가속화를 위한 또 다른 접근법이 필요해진 상황입니다.
하나의 애플리케이션이 아닌 여러 개의 애플리케이션을 동시에 여러 명의 접속자에게 레이턴시 없이 빠르고 정확하게 구현하기 위해 가상화라는 기술이 쓰이는 거죠. 이를 뒷받침하는 것이 바로 인텔 가속기 Card에 내장된 FPGA입니다.
관련 기술로는 SR-IOV, Scalable IOV, VirtIO 등을 제공하고 있습니다. CPU와 FPGA, 그리고 네트워크 상호 간의 데이터 송수신 속도를 높이기 위해 PCIe 대역폭도 지속 확장되고 있습니다. FPGA를 통해 설계 최적화를 꾀하는 셈이죠.
Q. PCIe Gen5, Gen6 시대는 우리가 예상하는 것보다 더 빨리 도래할 것 같습니다. 데이터 전송 속도가 기하급수적으로 늘고 있는 상황에서 제품 기획자라면 Gen5에서 Gen6로 마이그레이션 하는 방식을 택해야 할까요?
Gen6의 경우 최대 256GB/s의 대역폭을 갖고 있습니다. PCIe를 서버에서 구현해야 하는 개발자라면 서버 인터페이스가 한정되어 있다는 점을 고려해 마이그레이션을 추천합니다.
그러나 서버가 아닌 일반 개발품 기획자라면 인텔에서 현재 제공 중인 트랜시버를 사용할 것을 권하고 싶습니다. 트랜시버도 PCIe와 별도로 규격을 지속 업그레이드해 사용자에게 제공하고 있습니다. 현재 Gen4에서는 64GB/s의 속도를 맞추기 위해 14나노 공정에서 생산되는 FPGA를 사용할 수 있습니다.
Gen5 수준의 속도를 내고 싶다면 10나노 공정에서 생산되는 인텔의 애질렉스(Intel Agilex) 제품을, 그리고 향후 출시될 256GB/s의 Gen6의 경우도 향후 지원할 예정입니다.
유저 프로토콜로서 트랜시버도 PCIe 라인당 지원하는 대역폭이 다른데 현재 FPGA 한 라인당 최대 30개까지 지원하고 있어 사용자가 원하는 환경을 충분히 구현할 수 있을 것입니다.
▲ 10나노 애질렉스 <이미지=인텔>
Q. FPGA 가속기는 서버 시장뿐만 아니라 AI, 5G, 자율주행 등 다양한 분야에서 잠재력을 지닌 것으로 보이는데요. Gen5와 같은 고성능 PCIe가 어느 분야에 주로 응용될 것으로 예상하십니까?
AI 서버는 물론 5G망에 연결된 지능형 교통체계의 비디오 망 등 에지단, 5G 중계망 등 4차 산업 ICT 분야의 대부분에 활용가치가 있다고 생각합니다.
인텔에서 제공 중인 PAC Card는 카드 내 FPGA가 탑재된 보드 형태의 제품으로 PCIe 인터페이스에 준하는 사양을 갖추고 있습니다.
FPGA에 사용자가 원하는 워크로드를 그린 후 이를 PAC Card에 담아 서버에 꽂으면 압축용 가속기도, AI용 가속기도, 이미지 변환용 가속기도 모두 구현할 수 있습니다. 카드 하나에 어떠한 기능을 올리느냐에 따라 가속기 역할이 정해지는 것이죠.
가장 중요한 것은 사용자가 어느 부분을 가속할지를 정확히 판단하는 것입니다. 이후 FPGA에 이를 구현하고 서버와 연동해 최종 마무리하면 기존 CPU보다 더 빠르게 원하는 환경을 만들어 낼 수 있습니다.
자율주행차를 예로 들면 차량과 연결된 시각 정보는 일종의 하나의 AI로 볼 수 있습니다. 차량은 수많은 센서로 연결되어 있고 각각의 센서를 통해 데이터가 송수신됩니다.
이미지 판단·분석을 CPU 대신 FPGA를 사용하면 보다 빠르게 처리할 수 있습니다.
▲ 초연결 시대에 대응하고자 기업들이 데이터센터에서 가속기를 사용하고 있다
인텔은 지난 2015년 FPGA 제조업체 알테라를 160억 달러(한화 약 19조 3,600억원)에 인수합병한 후 지난해 4월에는 고성능 컴퓨터 비전과 AI 추론 기술 등을 담당하는 FPGA 기업 옴니텍을 인수하며 시장점유율 확장에 나서고 있다.
AI, 빅데이터 시장의 폭발과 무어의 법칙 쇠퇴로 반도체 시장은 지금 중요한 변곡점을 맞이했다. 기존의 실리콘 설계 주기로는 더 이상 혁신 속도를 따라가지 못하게 되면서 하드웨어와 소프트웨어를 사용해 애플리케이션을 가속화하는 기술이 주목받고 있다.
가속기 시장은 GPU와 코프로세서 경쟁에서 살아남은 GPU와 FPGA 및 ASIC에 기반한 가속기 사이에서 본격적인 2차 전쟁에 접어들었다.