KAIST, 유전자 전사인자 예측 시스템 개발...AI 기술 활용

전사인자 예측을 위한 심층 학습 모델의 네트워크 구조
전사인자 예측을 위한 심층 학습 모델의 네트워크 구조

한국과학기술원(KAIST·총장 신성철)은 이상엽 생명화학공학과 특훈교수가 버나드 팔슨 미국 캘리포니아대 샌디에이고캠퍼스(UCSD) 생명공학과 교수와 인공지능(AI)을 이용해 단백질 서열로부터 전사인자를 예측하는 '딥티팩터(DeepTFactor)'를 개발했다고 29일 밝혔다.

이번 연구는 국제학술지인 '미국국립과학원회보(PNAS)'에 지난 28일 게재됐다.

전사인자는 특정 DNA 서열에 결합해 유전자 전사(유전 정보를 복사하는 과정)를 조절한다. 유전자 전사를 분석하면 유기체가 변화에 어떻게 반응해 유전자 발현을 제어하는지 이해할 수 있다.

지금까지 새로운 전사인자를 찾으려면 이미 알려진 전사인자와의 상동성(유사 성질)을 분석하거나, 기계학습(머신러닝)과 같은 데이터 기반의 접근 방식을 이용했다. 기계학습 모델을 이용하기 위해서는 모델 입력값으로 사용할 특징을 찾아내는 과정이 필요하다.

심층 학습(딥러닝)은 문제 해결을 위한 잠재적인 특징을 내재적으로 학습할 수 있기에 최근 다양한 생물학 분야에서 활용되고 있다. 하지만, 심층 학습을 이용한 예측 시스템의 경우 시스템 내부 복잡한 연산 때문에 추론 과정을 직접 확인할 수 없는 특징이 있다. 이를 '블랙박스'라고 칭한다.

딥티팩터는 심층 학습 기법을 이용해 단백질 서열이 전사인자인지 예측한다. 단백질 서열로부터 전사인자를 예측하기 위해 세 개의 병렬적인 합성곱 신경망(CNN)을 이용한다. 공동연구팀은 딥티팩터를 이용해 대장균(Escherichia coli K-12 MG1655)의 전사인자 332개를 예측했으며, 그중 3개의 전사인자의 게놈 전체 결합 위치(genome-wide binding site)를 실험으로 확인, 딥티팩터 성능을 검증했다.

연구팀은 또 딥티팩터가 학습 과정에서 전사인자의 DNA의 결합 영역에 대한 정보를 학습해 예측에 활용한다는 사실을 확인했다.

연구팀은 딥티팩터가 다양한 유기체 전사 시스템 분석에 활용 가능할 것으로 기대하고 있다.

이상엽 특훈교수는 “이번 연구에서 개발한 딥티팩터를 이용해서 새롭게 발견되는 단백질 서열과 아직 특성화되지 않은 수많은 단백질 서열을 높은 처리 능력으로 분석할 수 있게 됐다”며 “이는 유기체의 전자 조절 네트워크 분석을 위한 기초 기술로써 활용 가능할 것”이라고 밝혔다.

대전=김영준기자 kyj85@etnews.com