한국정보화진흥원이 인공지능 학습을 위해 유적건조물, 상품, 도시 랜드마크 등에 관한 한국형 사물이미지 360만장을 공개했다. 유적건조물은 문화재청 분류체계를 차용해 설계됐으며 상품은 온라인 마켓을 비롯해 외국인 관광객의 선호도를 고려해 수집됐다. 랜드마크는 제주도를 포함한 전국 35개 도시를 대상으로 선정됐다.
NIA·사람과숲, 문화재·상품·도시랜드마크 데이터 개방
스마트관광·스마트교육·스마트스토어 분야 활용 기대
한국정보화진흥원(NIA)이 인공지능 학습을 위한 대규모 한국형 사물이미지 360만장을 1월부터 전격 공개한다.
▲ 2020년 1월부터 AI학습을 위한 한국형 사물이미지 360만장이 공개된다 <이미지=NIA>
이번에 공개되는 이미지는 ▲국가지정 문화재의 고궁, 탑, 성곽 등 유적건조물 260만장 ▲신발, 가방, 모자 등 상품 80만장 ▲35개 도시 랜드마크 20만장 등 총 360만장이다.
인공지능의 경쟁력이 데이터 확보에서 비롯되는 점을 고려해 이번 사업은 인공지능 학습을 위한 대규모 한국형 사물이미지 구축을 목표로 진행됐다.
그동안 인공지능 학습 데이터 분야에서 한국 실정에 맞는 사물이미지에 대한 데이터셋은 부족한 실정이었다.
이에 따라 한국정보화진흥원은 지난 2017년부터 인공지능 학습용 데이터 구축·확산 사업을 시행해왔으며 법률, 특허, 일반상식, 한국형 이미지 등 데이터셋 4종에 대한 구축을 시작으로 지난 2019년에는 관광, 농업, 헬스케어 등 7종에 대한 데이터를 개방했다.
또한 지난 5월에는 한국형 사물이미지 구축을 위해 이미지 DB 구축 전문기업 미디어그룹사람과숲을 사업자로 선정하고 6개월간 한국형 사물이미지 360만장 및 종별 이미지 3,000장 이상을 구축했다.
▲ 유적건조물, 상품, 도시 랜드마크 등을 중심으로 데이터가 수집됐다
국가지정문화재인 유적건조물은 문화재청 분류체계를 차용해 설계됐으며 서울, 경기, 인천, 경주 지역을 중심으로 850여개의 대상체를 촬영·수집했다.
상품은 대형 온라인 마켓의 분류체계를 참조했으며 외국인 관광객이 선호하는 상품과 한국에서 생산·유통되는 상품을 기준으로 귀금속, 신발, 화장품 등 250여 개의 대상체를 수집했다. 랜드마크는 제주도를 포함해 전국 35개 도시 총 68곳을 선정했다.
특히 이번 사업의 온톨로지 사전에 해당하는 ADAM KB는 사람, 장소 등 7가지 도메인 영역에서 2,600만개의 인스턴스를 확보하고 있으며 추론 후 트리플 수는 4억5,000만개로 아시아 최대 규모다.
한국정보화진흥원 관계자는 “이번에 구축된 한국형 사물이미지 데이터 360만장은 한국정보화진흥원이 운영하는 AI허브 홈페이지를 통해 확인 가능하다”며 “향후 스마트관광, 스마트교육, 스마트공장, 스마트스토어 등 다양한 분야에서 활용될 것으로 기대한다”고 밝혔다.