KAIST 이상엽 특훈교수와 UCSD 버나드 팔슨 교수 공동연구팀이 AI를 이용해 유전자의 유전 정보 복사 과정를 조절하는 전사인자를 예측하는 딥티팩터 시스템을 개발했다. 딥티팩터는 단백질 서열로부터 전사인자를 예측하기 위해 세 개의 병렬적인 CNN을 이용한다. 연구팀은 딥티팩터로 대장균의 전사인자 332개를 예측했으며, 그중 3개의 전사인자의 게놈 전체 결합 위치를 확인하여 성능을 검증했다.
KAIST-UCSD 연구팀, AI로 유전 정보
복사 과정 조절하는 전사인자 예측하는
'딥티팩터' 개발.. 단백질 서열 신속 분석
한국과학기술원(KAIST) 생명화학공학과 이상엽 특훈교수와 미국 캘리포니아대학교 샌디에이고 캠퍼스(UCSD) 생명공학과 버나드 팔슨(Bernhard Palsson) 교수 공동연구팀은 29일, AI를 이용해 유전자의 전사(유전 정보 복사 과정)를 조절하는 전사인자(transcription factor)를 예측하는 '딥티팩터(DeepTFactor)' 시스템을 개발했다 밝혔다.
전사인자로 인한 유전자 전사를 분석하면 유기체가 유전적 또는 환경적 변화에 어떻게 반응해 유전자의 발현을 제어하는지 이해할 수 있다. 이러한 점에서 유기체의 전사인자를 찾는 것은 유기체의 전사 조절 시스템 분석을 위한 첫 단계라고 할 수 있다.
지금까지 새로운 전사인자를 찾기 위해서는 이미 알려진 전사인자와의 상동성(유사한 성질)을 분석하거나, 머신러닝과 같은 데이터 기반의 접근 방식을 이용했다.
기존 머신러닝 모델을 이용하기 위해서는 분자의 물리 화학적 특성을 계산하거나, 생물학적 서열의 상동성을 분석하는 등, 해결하고자 하는 문제에 대한 전문 지식에 의존해 모델의 입력값으로 사용할 특징을 찾아내는 과정이 필요하다.
딥러닝은 문제 해결을 위한 잠재적인 특징을 내재적으로 학습할 수 있기에 최근 다양한 생물학 분야에서 활용되고 있다. 하지만, 딥러닝을 이용한 예측 시스템의 경우 시스템 내부의 복잡한 연산 때문에 추론 과정을 직접 확인할 수 없다.
▲ 전사인자 예측을 위한 딥러닝 모델의 네트워크 구조
[그림=KAIST]
공동연구팀이 개발한 딥티팩터는 단백질 서열로부터 전사인자를 예측하기 위해 세 개의 병렬적인 합성곱신경망(convolutional neural network; CNN)을 이용한다. 공동연구팀은 딥티팩터로 대장균의 전사인자 332개를 예측했으며, 그중 3개의 전사인자의 게놈 전체 결합 위치(genome-wide binding site)를 확인하여 딥티팩터의 성능을 검증했다.
나아가 공동연구팀은 딥티팩터의 추론 과정을 이해하기 위해 특징 지도(saliency map) 기반의 딥러닝 모델 해석 방법론을 사용했다. 이를 통해 딥티팩터의 학습 과정에서 전사인자의 DNA의 결합 영역에 대한 정보가 명시적으로 주어지지 않았지만, 내재적으로 이를 학습해 예측에 활용한다는 사실을 확인했다.
이상엽 특훈교수는 “딥티팩터를 이용하면 새롭게 발견되는 단백질 서열과 아직 특성화되지 않은 수많은 단백질 서열을 신속하게 분석할 수 있다”라며, “이는 유기체의 전자 조절 네트워크 분석을 위한 기초 기술로써 활용될 것”이라 밝혔다.
한편, 이번 연구는 과기정통부가 지원하는 기후변화대응 기술개발사업의 바이오 리파이너리를 위한 시스템 대사공학 원천기술개발 과제 지원을 받아 수행됐다. 또한, 국제학술지인 ‘미국국립과학원회보(PNAS)’에 ‘DeepTFactor: A deep learning-based tool for the prediction of transcription factors’라는 제목으로 12월 28일 게재됐다.