전남대, 빅데이터·머신러닝 활용 전사체 분석기술 개발

전남대(총장 정성택)는 박춘구 생명과학기술학부 교수팀이 바이오 빅데이터와 머신러닝 방법을 활용해 전사체 분석 방법을 고도화하는데 성공했다고 18일 밝혔다.

전사체는 유전체에서 전사된 RNA 전체 집합이다. 전장유전체가 해독되지 않은 생물의 단백질 기능 연구를 수행하기 위해 필수적으로 분석되는 바이오 빅데이터이다.

이러한 전사체 데이터는 전장유전체의 유무에 따라 다른 알고리즘으로 독자적으로 개발된 생물정보학 도구를 이용해 분석하고 결과를 해석해 왔다. 하지만 지금까지 전사체 데이터를 분석할 때 전장유전체의 이용 여부가 전사체 분석결과에 미치는 영향에 대한 연구가 충분히 이뤄지지 않아, 후속 기능유전체 연구에 많은 어려움을 겪고 있었다.

박춘구 전남대 교수팀 연구내용 그래픽.
박춘구 전남대 교수팀 연구내용 그래픽.

박 교수팀이 지도하는 이성권 석·박통합과정생(생물과학·생명기술학과, 제1저자)은 인간의 조직별 전사체 바이오 빅데이터를 이용해 전장 유전체 이용 여부에 따라 다르게 설계된 다양한 전사체 생물정보를 분석한 결과, 전장 유전체의 이용 여부에 따라 전사된 RNA의 정성 및 정량 예측에 차이가 발생함을 확인했고 해당 결과에서 유전자의 구조적 원인을 규명했다. 이는 추후 암 관련 신규 유전자 발굴을 위한 전사체 비교와 비모델 생물의 신규 유전자 발굴을 위한 전사체 분석에 대해서 합리적인 결과 해석 방안을 제시해줄 수 있다.

유전체 내 새로운 기능을 위해 복제된 유전자와 최근 인간 질병 진단 마커로 부각되고 있는 유전자 동형 또한 전사체 분석을 통해 발굴되고, 후속 기능유전체 연구에 폭넓게 활용되고 있다. 하지만 유전자 복제에 의한 패럴로그와 유전자 동형은 그 기능과 역할이 다름에도 높은 서열 유사도에 의해 서로 구분되기 쉽지 않다.

이를 위해 오주성 박사과정생(생물과학·생명기술학과. 제1저자)은 높은 상동성을 갖는 패럴로그와 유전자 동형을 구분하기 위한 추가 멀티오믹스 특징을 발굴했고, 이를 이용해 PIC-Me라는 머신러닝 모델을 설계했다. 해당모델은 90% 이상의 정확도를 보였다.

두 연구는 국제학술대회인 '생물 의학 정보학의 데이터 및 텍스트 마이닝(DTMBio)'에서 발표됐고, 올해 10월 BMC 바이오인포매틱스에 동시 게재됐다.

광주=김한식기자 hskim@etnews.com