다양한 산업의 수많은 기업이 빅데이터의 가치를 알고 있으면서도, 부족한 관련 기술 숙련도, 데이터 접근성 및 사일로 문제로 인해 최적의 빅데이터 수집, 저장, 그리고 처리 방안을 마련하지 못하고 있다. 이러한 어려움을 해결하기 위해서 매스웍스는 빅데이터 처리와 데이터 특징 추출 과정의 간소화 및 자동화를 지원하고 있다.
산업계, 빅데이터 수집/저장/처리 방안에 고심
매스웍스, 매트랩 및 오토ML 통해 고성능의
머신러닝 기반 솔루션 개발 자동화 지원
수많은 기업이 빅데이터의 사업적 가치를 알고 있지만, 관련 기술 숙련도가 낮고, 데이터 접근성/사일로 문제로 인해 자사의 사업에 적합한 빅데이터 수집, 저장 및 처리 방안을 고안하지 못하고 있다.
▲ 빅데이터를 기반으로 하는 신규 솔루션을 개발할 때
데이터 준비 및 처리, AI 모델링 자동화 및 활용 과정을
단일 플랫폼에서 수행하는 것이 수월하다 [그림=매스웍스]
매스웍스코리아는 지난 18일, ‘매트랩(MATLAB)을 활용한 데이터 과학과 머신러닝 응용’이란 제목의 2강 구성의 온라인 세미나를 열었다. 1강에서 매스웍스코리아 성호현 부장은 △병렬/분산 컴퓨팅 구조에서 간단한 함수를 이용한 빅데이터 고속 처리 방안과 이를 통한 △애플리케이션 지원 방법 등을 소개했다.
성호현 부장은 “매스웍스는 빅데이터 처리와 데이터 특징 추출 과정의 간소화와 자동화를 지원”한다면서, 이를 통해 “빅데이터 활용의 걸림돌인 숙련 기술 부족, 낮은 데이터 품질 문제에 대한 해결책들을 제시”한다고 밝혔다.
2강에서 매스웍스코리아 장규환 차장은 △머신러닝 워크플로의 고충점(Pain point)과 이를 해결하기 위한 △매스웍스만의 자동화된 머신러닝 개발 솔루션을 설명했다. 장 차장은 도메인 데이터나 알고리즘에 대한 사전 지식과 경험이 없는 사용자도 고성능 머신러닝 시스템을 개발할 수 있다고 강조했다.
아래는 이날 세미나 1, 2강의 요약이다.
◇ 매트랩, 머신러닝 기반 솔루션용 학습 데이터 생성
매트랩은 특정 산업 분야의 전문가와 엔지니어에게 편의성 높은 빅데이터 처리 환경을 제공한다. 먼저 빅데이터 처리 플랫폼의 메모리 용량보다 큰 빅데이터 처리에 적합한 ‘톨(Tall) 함수’를 통해 스트리밍 애플리케이션을 지원하기 위한 클러스터, 스파크(Spark)/하둡(Hadoop) 기반의 분산 데이터 처리를 지원한다.
다음으로, 고속의 인메모리(In-memory) 연산이 가능한 ‘분산(Distributed) 함수’를 통해 클러스터 기반 병렬 처리 방식을 구현하며, 많은 양의 컴퓨팅 작업을 요구하는 수학 및 행렬 연산을 원활하게 수행할 수 있도록 한다.
폭스바겐은 운전자 개별 맞춤형 자동차 기능과 서비스를 제공하기 위한 기술적 기반을 구축하는 작업에 매트랩을 도입했고, 주행 습관 데이터 기반의 개별 운전자 인식 알고리즘 개발에 성공했다.
▲ 폭스바겐은 매트랩을 활용하여 주행습관 데이터 기반의
개별 운전자 인식 알고리즘을 개발했다 [제공=매스웍스]
매트랩은 AI 개발 시간의 약 7~80%를 차지하는 대용량 영상·이미지 데이터 처리 및 특징 추출(Feature extraction) 과정 시간을 대폭 단축한다. 동영상 스트리밍 환경 구현, 대용량 이미지 분할 처리, 병렬 컴퓨팅 및 GPU 지원, 픽셀 단위 분석, 물체 탐지 및 추적 등을 통해 의료, 국방 및 항공우주 등의 산업 분야에서 규모와 복잡성이 점차 증가하는 이미지 데이터의 처리를 가속한다.
텍스트 데이터 분석과 관련해 매스웍스는 ‘텍스트 애널리틱스 툴박스(Text Analytics Toolbox)’를 제공한다. 해당 툴박스는 인간의 언어에 담긴 감정을 분석하고, 자료를 분석하고 분류하고 요약하여 자연어 처리의 효율성을 높인다.
매스웍스는 기업 자산의 장애 발생 시기 및 잔여 수명(RUL)을 예측하는, 유지보수 애플리케이션을 개발하려는 고객들이 자신들이 기존에 축적한 IoT 및 스트리밍 데이터를 활용할 수 있도록 지원한다.
또한, 급속한 환경 변화로 인해 충분한 양의 데이터를 지속해서 수집하기 어려운 경우 가상의 오류 데이터를 생성한다. 특히, 매스웍스는 자동 튜닝 기능이 탑재된 ‘시뮬링크(Simulink)’를 통해서 실제 환경에서 측정된 데이터 값과 가장 유사한 결과를 도출하는 예측 정확도 높은 모델을 개발하도록 지원한다.
에너지 기술 기업 베이커 휴(Baker Hughes)는 머신러닝 기반의 정확도 높은 예측적 유지보수 소프트웨어 개발을 위해 매스웍스와 협력했고, 테라바이트(TB) 규모의 다양한 센서 데이터를 손쉽게 수집하고, 분류 및 분석할 수 있었다.
셰일오일 추출 펌프 고장에 대한 데이터가 부족했던 베이커 휴는 펌프의 작동방식을 본뜬 모델을 개발했고, 가상으로 모델에 오류를 발생시키는 시뮬레이션을 통해 RUL을 도출하는 머신러닝 알고리즘을 기존보다 10배 빠르게 개발했다.
◇ 오토ML, 산업별 머신러닝 모델 개발 자동화
머신러닝은 인풋 데이터에서 아웃풋을 도출하는 모델이 새로운 데이터를 바탕으로 스스로 학습 하도록 하여 업데이트되게끔 하는 기술이다. 현재 △비선형적 인풋-아웃풋 구조의 음성 인식, 물체 탐지, 엔진 수명 예측, △실시간 변동 데이터 기반 동적 프로그래밍 기반의 주식 시장 및 날씨 예측, △확장 가능한 빅데이터에 기반한 IoT, 택시 요금체계, 항공기 지연 분석 등에 활용되고 있다.
현재 국방, 전자, 자동차 등 많은 산업에서 일련의 머신러닝 개발 과정을 하나의 플랫폼에서 수행하려는 수요가 높아지고 있다. 이에 매스웍스는 데이터 액세스부터 모델링, 시스템으로의 배포까지 전체 머신러닝 워크플로를 지원하는 툴박스를 제공한다. 머신러닝 워크플로 단계별로 존재하는 고충도 해결한다.
▲ 머신러닝 워크플로 내에서의 오토ML의 역할 [제공=매스웍스]
매스웍스의 자동화된 머신러닝 개발 솔루션 ‘오토ML(AutoML)’은 특징 추출 과정을 자동화한다. 특징 추출 과정은 머신러닝 모델이 학습할 수 있도록 데이터를 준비하는 과정에서 데이터의 핵심적인 특징을 생성(Feature generation), 선택(Feature selection), 변형(Feature transformation)하는 것을 뜻한다.
오토ML을 활용하면 도메인 데이터에 대한 이해도가 부족해도 핵심 특징만 쉽게 추출할 수 있다. 부적합한 데이터 기반의 모델링으로 기대 이하의 결과가 나오는 ‘모델 과적합(Overfitting)’ 현상을 방지하고, 선별된 특징에 대한 해석 가능성인 ‘모델 설명 가능성(Interpretability)’을 높이고, 모델 사이즈도 줄일 수 있다.
또한, 오토ML은 자동화된 머신러닝 모델 훈련으로 준비를 마친 데이터의 특징에 적용 가능한 최적의 알고리즘을 자동으로 찾아서 추천한다.
오늘날 엔지니어들은 무수한 알고리즘 중 적합한 것을 선택해야 한다는 점에서 고충을 느끼고 있다. 예를 들어 분류(Classification) 및 회귀(Regression) 모델은, 사용 가능한 알고리즘이 각각 10개, 6개 이상이다. 오토ML은 개별 알고리즘 기반 훈련에 드는 시간을 제거해 머신러닝 개발의 효율성 및 생산성을 향상한다.
더 나아가 훈련 시 변하지 않는 파라미터인 하이퍼파라미터를 튜닝해 모델을 쉽고 빠르게 최적화한다. 더불어 ‘매트랩 코더(Coder), 컴파일러(Compiler), 컴파일러 SDK(Compiler SDK)’를 통해 임베디드 하드웨어 및 엔터프라이즈 시스템상의 머신러닝 응용사례에 맞춰 머신러닝 모델에 대한 C, C++, HDL, PLC, CUDA, 자바(Java), 파이썬(Python) 등의 코드 생성과 배포를 지원한다.