SK텔레콤이 국립국어원과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용해 한국어에 최적화된 차세대 AI 언어 모델을 개발하기로 했다. 차세대 AI 한국어 모델은 오픈AI 연구소가 개발한 영어 기반 GPT-3 언어 모델와 유사한 성능의 한국어 범용 언어 모델(GLM)이다. 언어 관련 문제 풀이, 글짓기, 번역, 주어진 문장에 따라 간단한 코딩을 수행하는 등 사람 수준의 GPT-3 기능을 한국어에도 구현할 수 있다.
SKT, 국립국어원과 한국어 언어 모델 개발
1,500억 개 매개변수 가진 거대 GLM 예상
정확도 높여 다양한 산업 분야서 활용 기대
SK텔레콤은 7일, 국립국어원과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용해 한국어에 최적화된 차세대 AI 언어 모델을 개발하기로 했다.
▲ (왼쪽부터) SKT 데이비스 에릭 하트먼 연구소장
국립국어원 정희원 어문연구실장 [사진=SKT]
차세대 AI 한국어 모델은 오픈AI(OpenAI) 연구소가 개발한 영어 기반 GPT-3 언어 모델와 유사한 성능의 한국어 범용 언어 모델(General-Purpose Language Model; GLM)이다. 언어 관련 문제 풀이, 글짓기, 번역, 주어진 문장에 따라 간단한 코딩을 수행하는 등 사람 수준의 GPT-3 기능을 한국어에도 구현할 수 있다.
GLM은 일상의 감성 대화, 다양한 업종의 고객센터 대화뿐만 아니라 시사, 문학, 역사, 게임에 이르기까지 다양한 영역의 언어 활동에 적용될 수 있으며 이를 기반으로 새로운 산업 분야에 추가 활용될 수 있을 것으로 기대한다.
이번에 SKT가 개발하는 GLM은 1,500억 개 매개변수를 가진 거대 언어 모델로 개발된다. GPT-3가 1,750억 개의 매개변수를 가지고 있어 이전 버전인 GPT-2보다 100배 이상 크고 더욱더 높은 정확도와 넓은 활용도를 가진 점을 고려하면, GLM은 한국어 AI 언어 모델의 결정판이 될 것으로 예상된다.
SKT는 올해 말까지 GLM을 개발해 내부 서비스를 통해 모델 성능을 검증한 후 상용화를 진행할 예정이며, 다양한 서비스에도 적용할 계획이다. 또한 한국어 언어 모델 성능 평가 방법 개발 및 한국어 데이터 품질 평가 연구도 추진한다.
2018년부터 AI 언어 모델을 개발 중인 SKT는 2019년, KoBERT를 개발해 챗봇 등에 활용하고 있다, 2020년 4월, KoGPT-2 개발 완료로 챗봇 대화를 더욱 자연스럽게 발전시켰고, 2020년 10월에는 텍스트 처리 성능을 높인 KoBART를 개발해 자연어 이해 및 처리 영역의 기술력을 강화하고 있다.
국립국어원은 ‘2021년 국어 정보처리 시스템 경진대회’를 SKT의 AI 언어 모델을 활용해 AI의 언어소통 능력을 겨루는 방식으로 개편, 한글 주간에 개최한다.