빅데이터 활용이 가장 활발한 산업은 통신분야다. 통신사는 가입자 통화·위치·과금 정보와 엄청난 양의 데이터를 저장, 처리한다. 스마트폰 대중화로 많은 종류의 데이터가 증가했다. 스마트폰으로 발생하는 모바일 데이터는 이동성, 위치기반, 고객 차별성 등의 성격을 띤다. KT도 빅데이터로 새로운 비즈니스를 만들고 기존 시스템을 고도화하는 방안을 마련했다.
◇CDR분석, 오픈소스 하둡 빅데이터 플랫폼
KT가 빅데이터 분석을 고민하기 시작한 것은 오래전이다. 가장 먼저 통화상세내역(CDR) 등 통화·로그 데이터를 빅데이터 플랫폼에서 처리하기로 했다. CDR는 유무선 전화 통화에 대한 로그 데이터다. 모든 통화마다 한 건씩 나오기 때문에 전체로 보면 하루에 수억건의 데이터가 발생한다.
그러나 지난 몇 년간 스마트폰 사용 급증으로 CDR 데이터 수집과 배치 처리에 병목 현상이 발생했다. 저장 공간의 포화로 장기간 데이터 저장이 어려운 문제에도 직면했다. 시스템 과부하로 가입자 형태 분석과 추가 분석 업무도 불가능했다. KT는 이같은 문제를 해결하기 위해 오픈소스 하둡 기반 빅데이터 플랫폼을 도입하기로 했다.
문제는 원하는 성능이 제대로 구현되고 총소유비용(TCO)을 획기적으로 줄일 수 있는지였다. 최상의 결과를 내기 위해 KT는 CDR시스템의 데이터 수집에서 저장·처리·분석까지의 기본 계획을 수립했다. CDR시스템을 플랫폼화할 계획으로 KT클라우드웨어 넥스알과 함께 프로젝트를 진행했다. KT는 시스템 환경 및 현업 지식을, 100명 이상의 전문 엔지니어를 보유한 KT클라우드웨어 넥스알은 하둡 SW 기술과 솔루션을 제공했다. 빅데이터 솔루션 넥스알 NDAP는 오픈소스 기술을 상용화한 제품이어서 적용이 쉬웠다. KT는 하둡 외에도 No-SQL, 인메모리 컴퓨팅 등 다양한 빅데이터 기술을 접목했다.
그 결과 선형적 배치 성능은 1.5배, ETL 병목현상은 6배, 비즈니스분석(BI)은 2.5배 향상됐다. 실시간 검색 평균 처리 시간은 1초 미만으로 개선했다. 기존 방식의 고성능 서버·스토리지, 관계형데이터베이스관리시스템(RDBMS) 기반 아키텍처를 KT클라우드웨어 NDAP 기반 아키텍처로 대체했다. 5년 TCO 기준으로 최소 567억원의 비용을 절감할 것으로 기대됐다. KT는 통합 빅데이터 플랫폼을 올해 200노드 이상, 1페타바이트(PB) 이상 처리 가능한 규모로 확장할 방침이다. 이제 KT BIT추진단장은 “야후가 하둡을 사용한 지 8~9년 된 상황에서 KT가 이를 활용하지 못할 이유가 없다”며 “비정형 DW로서 빅데이터 플랫폼을 만드는 작업은 끝났다”고 전했다.
◇빅데이터 진정한 위력 `현업에서의 통찰력`
KT가 빅데이터를 활용하는 방법은 다양하다. KT는 외부 데이터와 결합한 융합 데이터를 이용해 새로운 비즈니스 모델을 창출한다.
이 단장은 “CDR 시스템에 도입한 KT클라우드웨어 넥스알 NDAP는 콜센터에서 통화 내역과 패턴 분석에 활용하고 있다”며 “기존에도 분석 작업은 이뤄졌지만 좀 더 저렴하고 확장성이 높은 플랫폼을 제공한다”고 설명했다.
KT는 빅데이터 솔루션을 활용해 인프라 성능을 개선하고 비즈니스 통찰력을 높이는 노력도 하고 있다. 예를 들어 대부분 기업들은 회계·관리 결산 작업을 하면서 수익성을 분석한다. 이 같은 데이터가 엄청나다. 전국 지점과 대리점에서 나오는 데이터를 모두 분석하고 데이터 오류를 수정하다 보면 3~4일은 걸린다. 하루 만에 끝낼 수 있다면 빅데이터 효과라 할 수 있다.
성공적인 빅데이터 활용을 위해 전문가 조언도 필요하다. 최근 KT는 빅데이터 플랫폼에 저장되는 데이터를 계획하는 빅데이터 전담 조직을 신설했다. 이 조직에서 사내 데이터 맵을 만들고 있다. BIT추진단은 데이터 플랫폼을 제공하며 빅데이터 전담조직은 플랫폼에 저장될 데이터 지도를 마련하고, 어떻게 활용할 것인지 과제를 제시한다.
신혜권기자 hkshin@etnews.com
이제 KT BIT추진단 단장
-넥스알 NDAP를 선택한 이유는.
“넥스알 NDAP는 이미 검증된 빅데이터 오픈소스를 상업화하는 데 장점이 있었다. KT가 원했던 것은 쓰기 좋고 편한 적극적인 기술 지원이었다. 낮은 TCO로 효과적인 데이터 분석 환경을 확보하기 위함이었다.”
-빅데이터 솔루션 도입 효과는.
“빅데이터 분석으로 모든 것을 예측할 수 있다는 것은 과장된 듯하다. 빅데이터 활용은 자연스러운 일이지만 빅데이터 분석이 엄청난 가치가 있다는 것은 지양해야 한다. 빅데이터 분석은 기존 온라인트랜잭션프로세스(OLTP)에서 나오는 데이터를 DW나 데이터마트에 저장해 OLAP 도구로 분석하는 기존 관행에서 벗어나, 기술 발전에 따라 좀 더 유연성을 갖게 된 점이다. 유연성이 주는 장점이 생각보다 크다. 빅데이터 활용 해법은 도입하는 기업 스스로가 찾아야 한다.”
-빅데이터의 진정한 효과는 무엇인가.
“빅데이터의 진정한 위력은 예측 분석 기능에 있지 않다. 데이터와 데이터가 엮이면서 생기는 통찰력을 바탕으로 재고 비용을 줄이거나 고객 지원 시간을 단축하는 것과 같은 업무 혁신에서 나온다. 이런 효과가 외부에서 보기에는 미미한 것처럼 보인다. KT처럼 비용이 조 단위로 넘어가는 기업에서 2~3%만 절감해도 그 효과는 엄청나다.”
-빅데이터 솔루션을 도입하는 기업에 조언을 하자면.
“기업에서 임직원들이 빅데이터가 뭔지 물으면 대부분 플랫폼 하둡 얘기를 한다. 그러나 이렇게 접근해서는 설득하기 힘들다. 다양한 접근법이 있지만 사내 흩어져 있는 데이터를 모아 활용 가능한 방안을 설명하면 쉽게 수긍한다. 데이터를 모으는 DW방식으로 접근하면 굉장히 어렵다. 물론 하둡도 어렵다. 다만 기존 방식보다는 상대적으로 쉽고 유연하다.”
KT CDR 기반 빅데이터 적용 로드맵
자료 : KT클라우드웨어