다가올 페타바이트급 데이터베이스의 등장으로 CIO들은 이 1024 테라바이트의 데이터를 이용해 무엇을 할 수 있을지 자문할 것이다. 페타바이트급 데이터 웨어하우스에 기업들이 투자할 가치가 있는 것인가.
실제로 방대한 규모의 데이터 웨어하우스는 이를 활용하는 기업들에 엄청난 투자수익을 안겨주고 있다. 오늘날 기업의 경쟁우위는 가격차나 제품의 차이에서 오는 것이 아니라 소비자, 유망고객에 대해 경쟁기업보다 얼마나 자세한 정보를 습득하는지에서 나온다.
유망고객을 충성도가 높은 고객으로 전환시키기 위해서는 고객이 원하는 양질의 제품, 서비스, 정보를 적시에 제공해야 한다. 기업들이 각각의 유망고객 중요패턴을 분석하기 위한 충분한 정보를 수집하고 습득한 정보를 적시에 활용하기 위한 적절한 시스템을 갖추고 있어야 이러한 전환이 가능하다.
최고의 성과를 보이는 기업이 결국 승자가 된다. 판매까지 성공적으로 완성하기 위해서는 세세한 작업들이 요구된다. 기술발달로 인해 기업들은 엄청난 양의 상세한 데이터를 수집할 수 있는 능력을 갖추게 되었다. 이미 수백 테라바이트급 데이터를 수집할 능력을 갖추었을 뿐 아니라 곧 페타바이트급 데이터 웨어하우징도 가능할 것이며 이러한 정보를 수초 안에 배치할 수 있다. 이는 공상과학 소설에서나 가능했을 법한 일이다. 막대한 양의 데이터를 신속하게 검색하고 배치하는 데 있어서 확장성이 핵심적 역할을 한다.
확장성이란 하드웨어 구성에 처리능력을 더하고 성능을 그만큼 늘리는 것을 말한다. 또는 다르게 보자면 확장성이란 하드웨어를 추가해 성능 저하 없이 더 많은 데이터 또는 좀 더 복잡한 쿼리를 수행한다든지 동시에 방대한 쿼리를 처리하는 능력을 말한다. 디자인이나 제품배치가 잘못되었을 경우에는 반대로 데이터 규모가 커질수록 성능이 급격이 저하된다.
로렌스 리버모어 내셔널 래버러토리스와 같은 연구소에서는 유체역학 연구와 PIC(particle-in-cell) 시뮬레이션에서 수십 년 동안 수백 테라바이트의 방대한 데이터를 활용해왔다. 연구소들은 위와 같은 작업을 위해 확장성을 지닌 하드웨어를 사용하기 위한 목적으로 그에 맞는 프로그램, 운용시스템, 컴파일러를 개발했다. 그러나 SBC를 위시한 일부 기업들은 이러한 능력을 주류 비즈니스로 끌어들였다. 상업적인 시스템을 통해 수백 대의 최신 인텔 CPU를 이용, 수백 기가바이트의 접근 가능한 메모리와 수백 테라바이트의 디스크 용량을 활용하여 통합된 단일 데이터베이스를 지원한다는 것이다. 이러한 시스템을 성공적으로 고안하고 배치하는 데 필요한 것이 무엇인가. 진정한 확장성은 다음의 네 가지 요소로 구성된다.
요소1 : 방대한 규모의 데이터 처리
매일 업체들은 주요 사업 애플리케이션이나 기업의 의사결정에 활용할 수 있는 막대한 양의 데이터를 수집한다. 한편 메가바이트당 가격은 하락하고 있다. 하지만 추가적인 데이터를 수집하는 것이 과연 저장비용을 정당화할 만큼의 가치를 창출할 수 있는지 자문해보아야 한다.
만약 기업이 전략적, 전술적 비즈니스 쿼리에 맞는 상세한 자료를 충분히 효율적으로 검색할 수 있다면 이와 같은 가치창출이 가능하다. 예를 들어 한 다국적 은행이 하나의 주요 고객군이 평생 창출하는 가치를 계산하려고 한다고 가정하자. 만약 데이터베이스가 데이터 처리에 여전히 직렬 접근방식을 사용한다면 이러한 쿼리로 인해 시스템이 마비될 수 있다. 그러나 반대로 분할정복 방식을 방대한 데이터에 적용하면 병렬 기술과 비 공유(shared nothing) 아키텍처를 활용, 주요 비즈니스 문제들을 보다 신속하고 신뢰성 있게 처리할 수 있게 된다. 바로 여기에서 측정 가능한 비즈니스 가치가 창출되기 시작한다.
요소2 : 동시에 발생하는 쿼리 처리
대기업들은 기업 어디에서 쿼리가 발생하든지 간에 세세한 요구에서부터 광범위한 요구까지 모두 충족시키며 어느 때나 수천 개 쿼리를 처리할 수 있어야 한다. 앞서 예로 들었던 다국적 은행이 수많은 신용카드 거래 중 불법 거래를 발견해내려 한다고 하자. 이 경우 관리자들은 월별 매출 수치를 분석하려 할지도 모른다. 이 수치를 여러 지역의 수백 개 비즈니스 단위에 곱해보라. 동시에 쿼리를 처리할 수 있는 능력이 얼마나 중요한지 깨닫게 될 것이다.
동시에 쿼리를 처리하기 위해서는 고도의 자원 관리 역량을 갖춘 데이터 웨어하우스가 필요하다. 쿼리가 도착하면 병렬 데이터베이스가 여러 요구에 응답을 해야 하고 다양한 테이블들을 분석할 수 있어야 한다.
요소3 : 복잡한 데이터간 연관성 유지
데이터가 복잡해지는 것을 어떻게 관리하느냐 하는 것이 방대한 데이터베이스에서의 쿼리 최적화 작업 중 해결해야 할 또 하나의 문제다. 예를 들어 단순한 고객 프로파일을 작성하기 위해 상이한 데이터 마트에 저장된 서너 개의 상호 연관된 데이터 포인트만 활용하면 충분하던 때가 있었다. 하지만 이제는 하나의 기업 데이터 웨어하우스에 저장된 30개 내지 40개의 데이터 포인트가 필요하다. 만약 웨어하우스가 수십억 항목으로 거래 데이터가 분류되어 있는 엄청난 규모의 표만 만들어낼 수만 있다면, 항상 유용한 고객 프로파일이 산출될 수는 없다. 웨어하우스가 데이터를 상이한 테이블에 분류할 수 있다고 하더라도 이러한 테이블들 사이의 상호 연관성을 기억하지 못한다면 데이터 분석능력이 저하되고 비즈니스 가치도 하락한다.
그렇기 때문에 웨어하우스의 규모가 늘어남에 따라 분석 쿼리를 위한 매우 효율적인 분류시스템을 산출해내야 한다. 이 시스템은 여러 테이블을 포함하는 동시에, 용이한 상호참조와 확장성을 가능하게 하기 위해 주제간 연관성을 유지해야 한다. 고객 프로파일의 예에선 제품 개발, 마케팅 프로그램, 또는 여러 주요 비즈니스 문제에 있어서 테이블에 포함된 상세한 정보를 참조할 수 있다.
요소4 : 고도의 데이터 쿼리와 데이터 마이닝 지원
마지막으로, 방대한 데이터 웨어하우스는 전달 신발 매출 이상의 쿼리 처리와 데이터 마이닝에 준비가 되어 있어야 한다. 예를 들어 고객의 평생 가치를 측정하는 것은 많은 구성요소를 포함하는 문제다. 웨어하우스는 이러한 다양한 구성요소를 분해하고 필요한 정보를 수집할 수 있는 효율적인 경로를 결정할 수 있어야 한다. 비용기반 옵티마이저가 대부분의 데이터베이스에서 이러한 과정을 자동화한다.
그러나 많은 경우 데이터베이스 관리자들이 개입을 하게 되거나 비용과 시간이 많이 소요되는 과정을 밟게 된다. 데이터 웨어하우스가 페타바이트 가치를 실현시키기 위해서는 인력의 개입 없이 고도의 쿼리를 처리하고 데이터 마이닝을 할 수 있는 옵티마이저를 보유해야 한다. 데이터의 세계에서는 기업전반의 의사결정과정에 상세한 데이터를 적시에 제공해줄 수 있는 능력에서 가치가 창출된다. 데이터 웨어하우스가 복잡해지는 데이터를 효율적으로 조직하고 고도의 쿼리와 동시에 처리해야 하는 쿼리들을 최적화하지 못한다면 데이터의 규모는 의미가 없다. 페타바이트의 진정한 강점은 방대한 데이터의 현실적 활용을 가능하게 한다는 것이다. 이는 주목할 만한 변화가 아닌가. 데이터 가치가 생명이다. 스티븐 브롭스트/NCR 테라데이타 최고기술중역(CTO)
brobst.stephen@teradata-ncr.com
*약력: 스티븐 브롭스트 (Stephen Brobst) NCR 테라데이타 최고기술중역
MIT 컴퓨터공학 석, 박사
MIT MBA 및 하바드 비즈니스 스쿨 졸업
MIT 슬론경영대 MBA 및 보스톤대 MBA 강의
[의사결정을 위한 데이터 웨어하우스 구축]의 저자
TPC 자문위원 및 오라클 VLDB 스티어링 그룹과 테라데이타 유저 그룹 위원
태닝 테크놀로지 사, 넥스텍 솔루션(IBM에 피인수), 스트레티직 테크놀로지 앤 시스템즈(NCR에 피인수) 등 설립
관련 통계자료 다운로드 엔터프라이즈 중역 대상 의사결정 설문조사