ETRI가 시각 인공지능 기술 핵심 알고리즘과 백본 네트워크를 비롯해 포토샵 없이 얼굴을 편집할 수 있는 기술을 일반에 공개한다. 또한 시각 인공지능 기술 학습에 필요한 도심환경 사물 560종을 대상으로 한 사물 인식 학습 데이터 20만 장을 함께 공개함으로써 국내 인공지능 산업 생태계 발전에 기여한다.
ETRI, 전문 기술 없이 얼굴 사진 편집 가능한 기술 개발
백본 네트워크·SC-FFEGAN 기술 등 AI 생태계 구현 나서
AI 학습에 필요한 도심환경 사물 인식 학습 데이터 공개
시각 인공지능 기술의 핵심 알고리즘과 전문 기술이 없어도 얼굴 사진을 편집할 수 있는 기술은 물론 시각지능 학습에 필요한 이미지 데이터가 일반에 공개된다.
▲ SC-FEGAN 기술을 이용해 악세사리를 착용하지 않은 사진에 간단한 스케치를 통해 자연스럽게 귀고리를 착용한 모습으로 만들었다 <사진=ETRI>
한국전자통신연구원(ETRI)이 사물 인식, 행동 추적 등 시각 인공지능 구현에 필요한 핵심 기술인 백본 네트워크(VoVNet)와 포토샵 없이도 얼굴을 편집할 수 있는 기술인 SC-FEGAN을 공개함으로써 국내 인공지능 산업 생태계 발전에 기여한다.
이와 함께 시각 인공지능 기술을 학습시키는 데 필요한 도심환경 사물 560종을 대상으로 한 사물 인식 학습 데이터 20만 장을 공개한다.
사람의 눈과 달리 컴퓨터는 영상 속 이미지 분별 및 인식을 위해서는 복잡한 과정이 필요하지만 이번에 ETRI가 공개한 백본 네트워크는 사진 속 객체들의 특징을 찾아내 정보를 추출하고 분석함으로써 인공 신경망으로 모델을 만들어낼 수 있다.
백본 네트워크는 사물 검출, 객체 부분별 분할 인식, 안면 인식 등 기능을 구현할 수 있어 시각지능의 핵심 기반 기술로 평가받고 있으며 개발자들은 이를 통해 원하는 서비스나 혁신적인 기능 구현을 통한 부가가치 창출이 가능하다.
SC-FEGAN 기술은 사진 속 인물이 하지 않은 액세서리를 추가하거나 머리 모양, 표정 등을 바꿀 수 있는 기술로 낙서 등으로 일부 훼손되거나 빈 공간이 생겨도 원하는 내용을 간단히 그려 복원할 수 있다. 얼굴 사진에 특화된 다양한 편집이 가능한 알고리즘인 셈이다.
여기에는 딥러닝 기법 중 하나인 갠(GAN) 기술이 사용되는데 이는 인공적으로 데이터를 만들고 이를 판별하면서 진짜 같은 데이터를 만들어내는 기술이다. 하지만 이 기술은 이미지를 합성하거나 변환하는데 효과적인 반면 사용자의 의도나 조건 등을 반영하지 못하는 단점이 있다.
이에 ETRI 연구진은 입력값을 넣어 원하는 결과값을 얻어낼 수 있도록 개발했으며 이를 통해 인물 사진과 사용자가 원하는 입력값을 알고리즘에 넣으면 조건에 적합하면서도 해당 사진 속 주변환경과 자연스럽게 어울리는 이미지를 만들 수 있다.
ETRI는 이 기술을 활용해 컴퓨터 그래픽, 웹 디자인, 산업디자인 등 분야에서 작업 시간을 대폭 줄이고 결과물의 품질을 높일 수 있을 것으로 기대하고 있다.
▲ Vovnet 기술을 응용해 기존 기술과 달리 회전이 이뤄진 영상에 대해서도 사람의 행동 역학을 정확하게 판별할 수 있다 <사진=ETRI>
이번에 추가 공개된 데이터에는 시각 인공지능 기술 학습에 꼭 필요한 높은 품질의 데이터도 포함돼 있다. 이 데이터에는 전봇대, 신호등, CCTV에 주로 녹화되는 도심 환경에 등장하는 사물들이 들어 있다.
박종열 ETRI 시각지능연구실장은 “국내 시각 인공지능 기술이 급속도로 성장하고 있지만 해외 의존도가 점차 높아지고 있어 관련 기술 공개를 통해 국내 산·학·연이 보다 경쟁력 있는 기술을 확보하고 생태계를 조성해 가도록 적극 지원할 것”이라고 밝혔다.
한편 ETRI는 향후 시각지능 관련 핵심 기반 기술들과 높은 품질의 데이터를 지속적으로 공개하는 동시에 냉장고, 가구 등 다른 객체들도 쉽게 편집할 수 있는 기술을 개발해 나갈 계획이다.