KAIST 유회준 교수팀이 구글의 알파고에 활용됐던 심층 강화학습(DRL)을 높은 성능과 전력효율로 처리할 수 있는 반도체 기술을 개발했다고 밝혔다. DRL은 신경망이 복잡하게 얽혀있고 대규모 데이터를 처리해야 하므로 기존에는 대용량 메모리의 고성능 컴퓨터 다수를 병렬 활용해야 구현할 수 있었다. 연구팀은 모바일 기기 등에서도 DRL이 가능하도록 기존 대비 성능이 우수하고 전력효율이 2.4배 높은 AI 반도체 기술, 옴니DRL을 개발했다.
KAIST, 심층 강화학습 처리 AI 반도체 기술 개발
로봇 조종, 자율주행 드론, 게임 등에 활용 기대
한국과학기술원(KAIST) 유회준 교수팀은 16일, 구글의 AI 프로그램, ‘알파고’에서 활용되었던 심층 강화학습(Deep Reinforcement Learning; DRL)을 높은 성능과 전력효율로 처리할 수 있는 반도체 기술을 개발했다고 밝혔다. 이번 연구는 6월 14~19일 개최된 ‘IEEE VLSI 심포지아’에서 하이라이트 논문으로 소개됐다.
▲ KAIST, AI 반도체 기술 옴니DRL 개발 [캡처=SSL KAIST]
DRL이란, 인간이 미리 만든 데이터와 정답 쌍을 활용하여 AI를 학습시키는 ‘지도학습’과 달리, AI가 주어진 환경에서 시행착오로 얻어진 경험을 활용해 스스로 최적의 답안을 도출하면, 인간이 그 결과에 대한 피드백을 주는 방식이다.
정답을 주지 않은 상황에서 최적의 답을 빠르게 찾기 위해 여러 개의 신경망을 동시에 사용하는 특징이 있는데, 신경망이 복잡하게 얽혀있고 대규모 데이터를 처리해야 하므로 기존에는 대용량 메모리의 고성능 컴퓨터 다수를 병렬 활용해야 구현할 수 있었다. 따라서 노트북, 스마트폰 등은 이를 구현할 수 없었다.
연구팀은 모바일 기기 등에서도 DRL이 가능하도록 기존 대비 성능이 우수하고 전력효율이 2.4배 높은 AI 반도체 기술, ‘옴니DRL(OmniDRL)’을 개발했다.
구체적으로는 △심층신경망 데이터에 대한 압축률을 증가시켜 불필요하거나 중복된 데이터의 개수를 줄이는 기술, △기존과 다르게 데이터 압축 상태로 연산을 가능하게 하는 기술, △연산과 저장 기능이 통합된 SRAM 기반 프로세싱인메모리(PIM) 반도체 기술 등을 사용했다. 특히, 기존 PIM 반도체는 정수 단위만 연산할 수 있었으나, 이번 연구를 통해 소수점 기반 연산이 가능한 기술을 개발했다.
옴니DRL을 ‘인간형 로봇 적응 보행 시스템’에 적용한 결과, 옴니DRL이 연결되지 않았을 때보다 7배 이상 빠른 속도로 적응 보행이 가능한 것으로 확인됐다.
유회준 교수는 “이번 연구는 1개의 반도체로 심층신경망을 압축 상태로 유지한 채로 추론 및 학습을 가능하게 했다”라며, “불가능이라 여겨졌던 소수점 연산이 가능한 AI 반도체 기술을 개발했다는 점에서 의미가 크다”라고 설명했다.
과기정통부 송경희 AI 기반정책관은 “이번 연구는 AI 반도체 분야에서 국내 연구 결과를 국제적으로 인정받았다는 점에서 의미가 크다”라며, “과기정통부는 지난해 착수한 1조 원 규모의 AI 반도체 R&D 사업을 지속 지원하고, 내년부터 4천억 원 규모의 PIM 반도체 R&D 사업을 본격적으로 추진할 것”이라고 밝혔다.
한편, 이번 연구는 2019년부터 2021년까지 총 18억 원이 책정된 과기정통부의 ‘혁신성장 연계 지능형 반도체 선도기술 개발’ 사업의 지원을 받아 수행됐다.