KAIST-미 카네기멜론대, 다차원 빅데이터 분석 시스템 개발

KAIST-미 카네기멜론대, 다차원 빅데이터 분석 시스템 개발

한-미 공동 연구진이 주어와 동사, 목적어로 이루어진 지식을 분산머신으로 한번에 9900만개까지 분석하는 데 성공했다.

강유 KAIST 교수 연구팀(제1저자 전인아 연구원)과 크리스토스 팔로웃소스 미국 카네기멜론대 교수 연구팀은 기존대비 최소 10배에서 최대 100배 정도 되는 빅데이터를 효율적으로 분석할 수 있는 대용량 다차원 텐서 분석 시스템을 개발했다고 14일 밝혔다.

텐서는 3차원 이상의 지식 베이스 데이터를 말한다. 예를 들어 주어와 동사, 목적어로 구성된 지식 베이스 데이터는 3차원 배열이다. 또 발신 및 수신 IP, 시간에 포트가 포함된 네트워크 트래픽 데이터는 4차원 배열이다. 텐서는 주로 의료 데이터나 네트워크 트래픽, 소셜 네트워크 등 다양한 고차원 데이터 분석에 쓰인다.

하지만 기존 알고리즘으로는 데이터가 대용량화되면서 확장성이 떨어져 분석에 한계가 있었다.

이 시스템은 데이터나 기능을 분산 처리하는 분산머신에서 동작하며, 기존대비 100배 용량까지 분석할 수 있는 장점이 있다.

연구팀은 분석 용량 개선을 위해 텐서 분해 연산을 재설계했다. 또 중간데이터 크기와 데이터를 읽고 쓰기 위한 디스크 접근을 최소화했다.

실제로 연구팀은 이 시스템을 이용해 기존 방법으로는 분해가 어려운 9900만개의 지식으로 이뤄진 텐서 ‘프리베이스’와 ‘넬(NELL)’을 처리하는 데 성공했다.

강유 교수는 “다양한 분야의 빅데이터를 분석하는 데 활용할 수 있을 것”이라며 “오는 4월 13일 서울서 개최하는 데이터베이스분야 국제학회 중 하나인 IEEE 데이터 엔지니어링 국제 콘퍼런스 2015에서 이 결과를 구두 발표할 예정”이라고 말했다.

한편 이 연구는 미래창조과학부와 한국연구재단이 추진하는 신진연구자지원사업의 지원을 받아 수행했다.

대전=박희범기자 hbpark@etnews.com