데이터브릭스가 25일 인터콘티넨탈 하모니 블룸에서 ‘Data + AI World Tour’를 국내에서 처음 오프라인으로 개최했다. 이번 행사에서는 데이터브릭스의 최신 솔루션을 소개하고, 이를 적용한 국내 도입 성공 사례를 공유했다. 데이터브릭스 장정욱 데이터브릭스 코리아 대표는 “데이터 레이크하우스의 선구자로서, 우리는 모든 사람이 데이터와 AI에 액세스할 수 있도록 하는 데 집중하고 있다. 이번 행사는 데이터브릭스의 제품 혁신 동향을 직접 살펴볼 수 있는 아주 유익한 자리”라고 말했다.
▲Chris D'Agostino 글로벌 필드 CTO
국내 첫 오프라인 행사…데이터·AI 최신 동향 소개
G마켓·이마트24·데브시스터즈·한화 등 사례 공유
오픈소스 기반 초거대 AI 모델 ‘돌리’ 2.0 공개
멀티 클라우드 도입이 증가하는 가운데, 데이터브릭스가 통합 플랫폼을 통해 데이터 중심 기업으로의 여정을 지원한다.
데이터브릭스가 25일 인터콘티넨탈 하모니 블룸에서 ‘Data + AI World Tour’를 국내에서 처음 오프라인으로 개최했다. 이번 행사에서는 데이터브릭스의 최신 솔루션을 소개하고, 이를 적용한 국내 도입 성공 사례를 공유했다.
데이터브릭스 장정욱 데이터브릭스 코리아 대표는 “데이터 레이크하우스의 선구자로서, 우리는 모든 사람이 데이터와 AI에 액세스할 수 있도록 하는 데 집중하고 있다. 이번 행사는 데이터브릭스의 제품 혁신 동향을 직접 살펴볼 수 있는 유익한 자리”라고 말했다.
데이터브릭스 Chris D'Agostino 글로벌 필드 CTO는 “데이터브릭스는 마치 애플社의 전략처럼 단일 플랫폼에서 다양한 워크로드를 하나로 모아 효율성을 극대화했다”며, “기업의 방대한 데이터를 효율적으로 관리하고, 데이터 중심 의사결정을 도와 궁극적으로 비용 절감을 달성하겠다”고 주장했다.
■ 데이터 레이크하우스, 강력한 데이터 원스톱 플랫폼
데이터 중심의 조직으로 가기 위해서는 데이터 관리를 위한 단일한 거버넌스를 마련해 여러 작업을 단순화하는 작업 등 수많은 사항을 고려해야 한다. 예컨대 AI와 ML의 활용, 에너지 저감, 오케스트레이션, 데이터 동기화 등이다.
데이터 레이크하우스는 데이터, 분석, AI 지원하는 개방형 통합 플랫폼이다. 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합해, 모든 데이터에 대한 ‘비즈니스 인텔리전스(BI)’와 ‘ML(머신러닝)’을 지원한다.
이를 통해 복잡성을 해소할 수 있고, 오픈소스 기반으로 하여 개방성을 확보하며, 멀티 클라우드 도입이 가능해진다는 설명이다. 웨어하우스는 비정형 데이터는 지원하지 않는데, 레이크하우스는 하이퍼스케일러 개념을 추가했다.
통합 데이터 관리를 통해 안전성과 성능이 확보되며, 통합 거버넌스를 통해 보안 및 사용 용이성이 확보된다. Chris D'Agostino 글로벌 필드 CTO는 “결국 품질을 결정하는 건 들어오는 데이터의 품질”이라고 말했다.
또한 데이터브릭스는 최고 아파치 스파크 버전을 개발 및 지속 업데이트 하는 전략을 통해 타사 대비 성능이 탁월함을 과시했다. 10년 노하우의 기술력으로 디스크 저장 및 캐싱을 최적화하고, 분산 컴퓨팅 기술 장점도 덧붙였다.
■ 이마트24·한화·데브시스터즈…고객 데이터 실례 제시
▲㈜한화 한기선 DT 전략 담당
연사로 나선 주요 고객사 중 이마트24 이재경 CIO는 “리테일 업체는 90%가 비정형 데이터로, 잘못된 운영으로 영업손실이 발생되는 비율이 25%나 되는데, 데이터브릭스 플랫폼 도입 후 서비스 개발 시 최적화를 통해 비용을 절감했다”고 말했다.
이마트24는 빅데이터 인프라를 구축 및 과제를 선정해 현업 담당자부터 공유 및 검증하는 로드맵을 수립해왔다. 그러나 각종 서비스 제공에 있어 데이터 양이 방대해지고 다양해지며, 신속한 인프라를 구축해 산재된 데이터의 통합 처리 필요성을 느껴 데이터브릭스 플랫폼을 적용했다고 설명했다.
예컨대 AI 상품 추천 서비스에서 총 분석 시간이 27시간, 총 93만원의 비용이 발생했던 것에 비해 데이터 및 알고리즘 최적화, 컴퓨팅 자원 최적화를 통해 총 분석시간을 1시간, 비용은 7만원으로 각각 96%, 93%로 대폭 줄였다고 밝혔다.
제조 분야에는 ㈜한화 한기선 DT 전략 담당이 나섰다.
㈜한화는 방산 기업으로 시작했지만 무기화학, 이차전지, 건설 등 새로운 사업이 추가되며 경영 환경 변화에 적시 대응 가능한 시스템이 필요했다.
상이한 사업구조의 회사로 통합되며 기존 회사별 구축으로 사일로화된 시스템이 존재해 데이터브릭스 플랫폼을 도입한 후, 유연한 대응이 가능해지고 사업부문의 데이터 통합으로 데이터 기반 의사결정체계를 수립하게 됐다.
특히 버전이 다른 SAP 데이터 등을 통합하고, DT에 필요한 다양한 규모의 데이터 분석 환경을 구축했다. 한화는 “향후 AI와 ML의 적극적 활용 등으로 지속적으로 데이터 통합함으로써 궁극적으로 DX를 달성할 수 있을 것으로 기대한다”고 말했다.
데이터브릭스는 향후 계획으로 신규 데이터 작성 시, 모든 정책과 제안사항을 준수할 수 있도록 지원하겠다고 말했다.
이날 행사에서는 지난 3월 공개한 ‘돌리’의 2.0 버전을 소개했다.
챗GPT 같은 초거대 AI 모델을 트레이닝할 수 있는 대기업은 소수에 불과하다. 점점 모델이 거대해질수록 요구되는 GPU와 함께 비용이 천문학적으로 발생하기 때문이다.
이에 데이터브릭스는 ‘돌리’를 통해 고비용 인프라 없이도 챗GPT의 기능을 구현할 수 있다고 포부를 드러냈다. 데이터브릭스는 오픈소스 기반의 모델을 제공해 직접 기업이 트레이닝해 볼 수 있게끔 지원하겠다고 주장했다.
한편 이날 데이터브릭스의 Data + AI 행사에서는 데이터브릭스 코리아 1주년 기념 고객 시상식이 진행됐다. 오후에는 기술 트랙, 개발자 트랙, 고객사례 트랙 세 가지 주제로 고객에게 데이터 중심 기업 아키텍처를 제시했다. 잡코리아, 핀다, 무신사, 지마켓, MS, 메가존 클라우드 등에서 연사로 나섰다.