빅데이터 프로젝트의 80% 이상은 데이터 통합과 품질 관련 업무로 이뤄진다. 업계에 따르면 기업체에 고용된 데이터과학자들이 하는 업무에서 비즈니스 통찰력을 이끌어내는 분석 업무에 들이는 시간은 20%에 불과하며 나머지 시간은 데이터 접근, 파싱, 표준화, 통합, 준비 전달과 관리 등 데이터 통합 작업에 사용하고 있는 것으로 나타났다.
이에 데이터 통합 작업을 솔루션으로 해결하는 방안이 제시되고 있다. 데이터통합(DI) 솔루션은 데이터웨어하우스(DW)와 분석시스템 구축에 필요한 데이터를 추출, 변환하고 적재(ETL)하는 솔루션과 방대한 데이터를 일괄 처리하고 마스터데이터관리(MDM)와 시스템 동기화, 신규 시스템 개발 시 데이터 이동의 역할을 담당한다.
엔터프라이즈 시장 전반에서 하둡 채택이 확대되면서 관련 솔루션이 주목받고 있다. 인포매티카의 `파워센터 빅데이터 에디션 9.5.1`은 새로운 기술과 기존 데이터 관리 인프라에서 모두 실행되는 빅데이터의 안전한 접근방법을 컨셉트로 한다. 빅데이터 이점을 실현하기 위해 대규모 개발자가 필요하지 않으며 코딩 없는 개발 환경, 재사용 가능한 비즈니스 규칙과 매플릿, 효율적 협업 툴과 유연성 있는 구축모델을 사용할 수 있어 생산성이 개선된다.
또 저렴한 범용 하드웨어(HW)에서 원시 데이터를 저장하고 ETL 처리를 수행해 기존 DW 투자 역량을 확대할 수 있다는 설명이다.
특히 기존 오라클 데이터베이스(DB)에서 하둡 파일 시스템으로 고속 데이터 복제가 가능하며 기존 RDBMS 데이터와 하둡 파일 시스템 기반에 위치한 빅데이터를 하둡 분산처리 방식인 맵리듀스 처리로 빠른 ETM 작업이 가능하다. 이외에 하둡분산 파일시스템(HDFS) 내에 설치해 하둡 내 해당 데이터를 추출, 변환, 적재하는 인터페이스를 제공하고 소셜미디어의 연결구성으로 관련 데이터를 추출, 적재하는 기능을 지원한다.
이외에 국산 데이터통합 솔루션을 생산하는 데이터스트림즈는 지난 2001년부터 자체개발한 `테라스트림`을 내놓은 바 있다. 국내 시장에서 외산 데이터통합 솔루션에 수입대체 효과를 내고 있다는 설명이다. 신한카드 차세대, 국세청 연말정산, 근로복지공단 DW 등 사업을 수행했다. 올해부터는 데이터품질과 데이터통합을 겸한 제품다각화와 시장 확대를 전망한다. 데이터분석을 위한 전사 데이터플랫폼 구축과 관제솔루션 개발, 전사 MDM 등에 기대를 보이고 있다.
테라스트림은 여러 서버환경끼리 데이터베이스를 연계해 소스 데이터를 빠르게 가공하고 처리하는 데이터 추출, 변환, 연계, 배치, 실시간 데이터 처리 연계 및 전환 업무 통합 기능을 한다. 파일과 데이터베이스 형태를 필요에 따라 빠르고 편리하게 변환, 정제, 검증, 관리할 수 있다. ETL 또는 기업 애플리케이션 통합 등 여러 데이터 통합 과정을 원활하게 수행할 수 있다.
테라스트림은 대용량 데이터를 빠르게 처리할 수 있으며, 시스템 자원을 효율적으로 사용해 데이터 통합 과정을 더 빠르고 편리하게 개발하고 관리할 수 있다. 이밖에 데이터스트림즈는 `델타스트림` `메타스트림` `퀄리티스트림` `임팩트스트림` `마스터스트림`도 함께 선보였다.
정미나기자 mina@etnews.com