70배 빠른 다차원 빅데이터 분석 기술 개발

박경석 과학데이터기술연구실장
박경석 과학데이터기술연구실장

기존 상용 플랫폼보다 70배 빠른 빅데이터 분석 기술이 상용화됐다.

한국과학기술정보연구원(KISTI·원장 한선화)은 빅데이터 처리 환경에서 데이터 처리·분석 시간을 획기적으로 줄인 `투픽스(TuPiX)`를 시범 운용 중이라고 16일 밝혔다. 동일한 컴퓨팅 환경에서 전통적인 데이터베이스관리시스템(DBMS), 하둡(Hadoop) 등과 비교한 결과, 속도가 약 70배 빨랐다. 일반 PC서버 이용이 가능해 비용도 기존 대비 10분의 1로 줄였다. 고성능 PC서버 가격은 3000만원대다.

투픽스는 원형 데이터 전처리·불러오기·재구성 과정이 없다. 원형 데이터에 바로 접근하도록 설계했다. 원본 데이터를 직접 분석하는 인-시추(In-Situ)분석 엔진 덕분이다. 데이터 파일 포맷을 훼손하지 않고 노드 개수와 계산 단위에 맞춰 저장한다. 사용자 질의가 오면 분석에 필요한 해당 파일 영역에만 접근한다. 파일 접근에 따른 입출력 시간 오버헤드를 최소화했다.

간단히 컴퓨팅 노드를 추가하는 `스케일-아웃` 방식을 채택했다. 손쉽게 필요한 만큼 컴퓨팅 노드를 추가·연동한다. 분석결과는 시각화했다. 분석 라이프사이클 전 과정 관리와 사용자 간 협력지원, 맞춤형 분석지원도 가능하다.

KISTI는 한국해양과학기술원과 극지연구소에 투픽스 오션 컬러(TuPiX Ocean Color) 시스템을 무상 기술이전했다. 현재 식물 플랑크톤 번성 패턴 모델과 한반도 연안 유해 적조 발생 가능도 모델을 개발 중이다. 오는 10월까지 적용 결과를 분석한 뒤 연말까지 최종 패키지를 완성할 계획이다.

기존 데이터베이스를 분석하고 처리하는 과정과 KISTI가 개발한 인-시투엔진을 이용해 처리하는 과정(아래)을 비교했다.
기존 데이터베이스를 분석하고 처리하는 과정과 KISTI가 개발한 인-시투엔진을 이용해 처리하는 과정(아래)을 비교했다.

향후 계산 금융, 지리정보, 사회연결망 등 대규모 계산과 데이터 관리가 필요한 다양한 응용 분야를 발굴할 계획이다.

박경석 KISTI 과학데이터기술연구실장은 “연구 생산성과 빅데이터 분석·관리 효율성 향상에 기여할 것”이라며 “투픽스를 기반으로 하는 기관별 특화 시스템을 제공할 계획”이라고 말했다.

대전=박희범 과학기술 전문기자 hbpark@etnews.com