포스텍, 일반 PC 한 대로 대용량 그래프 데이터 처리기술 개발

국내 대학원생이 종전 방식보다 수십 배 성능이 뛰어나면서 간편한 대용량 네트워크 분석 기술 기반의 `듀얼심(DUALSIM)` 개발에 성공했다.

화제의 주인공은 포스텍(POSTECH) 창의IT융합공학과 대학원생인 김현지 씨다.

대용량 네트워크 분석 기술기반 듀얼심을 개발한 김현지 포스텍 창의IT융합공학과 대학원생.
대용량 네트워크 분석 기술기반 듀얼심을 개발한 김현지 포스텍 창의IT융합공학과 대학원생.

김 씨는 오는 6월 미국 샌프란시스코에서 열리는 `제42회 미국 컴퓨터학회 데이터베이스분과(ACM SIGMOD) 학술대회`에서 관련 논문을 발표한다.

김 씨는 지난해 11월 학부생 때 이 논문을 제출, 게재 승인을 받아 눈길을 끌었다.

데이터베이스(DB) 분야에서 세계 권위를 인정받고 있는 ACM SIGMOD에 학부생이 제1저자로 논문이 발표되기는 이례다.

포스텍 로고
포스텍 로고

김 씨가 개발한 `듀얼심` 방법은 수백 대의 컴퓨터 서버가 필요한 기존의 방식과 달리 일반 PC 한 대만으로 방대한 그래프 데이터 처리가 가능한 `서브그래프 열거` 기술이다.

대용량 네트워크의 데이터 안에서 반복해 나타나는 특정 패턴을 모두 찾아내 나열하는 `서브그래프 열거`는 소셜 네트워크의 특성을 분석하는 친구 추천이나 커뮤니티 찾기 및 진화 연구 등을 비롯해 데이터 마이닝의 소형 커널 연산, 생명과학 분야의 네트워크 모티프1 탐사 등에 널리 쓰인다.

김 씨는 이번 연구를 통해 메모리 사용은 대폭 줄이면서도 데이터 처리 속도를 수십 배 높이는 획기적인 결과를 보였다.

기존의 `서브그래프 열거` 기술은 하나의 결과를 구하기까지 그 중간에 발생하는 부분 검색 결과를 모두 저장해 왔다.

포스텍 전경사진
포스텍 전경사진

이런 과정에서 본래의 데이터보다 용량이 수십 배 이상 커진 부분 검색 결과를 모두 메인 메모리에 저장하기 위해 메모리 용량이 큰 고사양 컴퓨터가 여러 대 필요하거나 그마저도 원하는 결과를 구하지 못한 채 도중에 실패하는 경우가 잦았다.

김 씨는 “부분 검색 결과를 저장하지 않아도 되는 새로운 방식을 채택해 메모리 사용을 수백 배 이상 대폭 줄였다”면서 “제한된 리소스로 대용량의 그래프 데이터 처리가 가능하게 됐다”고 설명했다. 김 씨는 멀티 코어 중앙처리장치(CPU) 등 하드웨어(HW)를 최대한 활용해 효율성을 극대화, 기존의 가장 빠른 처리 방식보다 성능을 수십 배 향상시켰다.

한욱신 포스텍 교수
한욱신 포스텍 교수

김 씨의 연구를 지도한 한욱신 교수는 “새로 개발한 서브그래프 열거 기술을 적용하면 가정용 컴퓨터로도 방대한 양의 그래프 데이터를 단시간 안에 처리할 수 있다”면서 “데이터 분석을 바탕으로 하는 전산, 생명, 화학 등 분야뿐만 아니라 빅데이터 분석이 필요한 기업과 연구소에도 큰 도움이 될 것”이라고 부연했다.

한 교수와 김 씨는 이번에 개발한 데이터 처리 기술을 상용화하기 위한 후속 연구를 진행하고 있다.

포항=정재훈기자 jhoon@etnews.com