비정형 데이터를 보호하는 최적의 데이터 레이크 분석·구축 전략은?

[데이터 레이크 솔루션] All NVMe로 최적의 데이터 레이크를 구축하는 델 테크놀로지스 파워스케일

이제는 데이터 경제시대, 많은 기업에서 데이터 기반 의사 결정이 중요해 지고 있고 다양한 비즈니스를 통해 생성되는 비정형 데이터를 효율적으로 관리하고 분석하기 위해 IT 기술을 도입하고 있다. 또한 데이터가 급증하면서 각 기업의 중요 데이터를 겨냥한 사이버 공격도 범위가 규모면에서 심각해지고 있다. 비정형 데이터의 효율적인 구축과 운영 및 랜섬웨어 공격으로 부터의 비정형 데이터 보호 전략이 기업에겐 최우선 과제가 되고 있다.

기업 비즈니스 성공은 데이터 분석이 기반돼야 한다. 그러나 빅데이터 분석은 간단하지 않다. 데이터의 수집에서 빅데이터 분석을 위한 IT 인프라의 구성과 실제 분석법과 플랫폼의 활용 등 여러 고려할 점이 있다.

IT인프라 측면에서 고민이 필요한 것이 바로 ‘데이터 레이크(Data Lake)’다. 데이터 레이크는 다양한 소스에서 수집한 모든 형태의 데이터를 기반으로 원시데이터 형태라는 특징을 가진다, 또 데이터 수집의 정해진 목적이 없으며 여러 애플리케이션을 이용하는 데이터 분석에 적합하다. 데이터 레이크를 사용하는 사용자는 데이터 과학자, 데이터 개발자 등 데이터 프로페셔널을 중심으로 한다. 애플리케이션으로는 빅데이터 분석, 머신러닝, 데이터 검색, 침입 탐지 및 운영 분석 등에 사용된다.

비정형 데이터를 보호하는 최적의 데이터 레이크 분석·구축 전략은?

 
모든 형태의 데이터를 저장하는 만큼 데이터 레이크는 방대한 저장용량을 가지게 된다. 이미 기업은 수집하는 데이터의 소스가 다양해지고 있다. 데이터의 절대량도 늘어나고 있는데 특히 이미지, 동영상, 센서 등 비정형 데이터의 비중이 높아져 이러한 데이터의 비중이 앞으로 기업 데이터의 90%이상을 차지한다는 연구도 있다.

저장의 의미가 크다는 점에서 데이터 레이크를 구성하기 위한 스토리지 인프라는 매우 중요하다. 데이터 레이크의 스토리지는 확장가능하고 안전한 플랫폼을 위한 선형적인 스케일 아웃을 지원해야 한다. 또, 관리의 단순화를 위해선 단일 볼륨으로 저장돼야 하며 멀티 프로토콜을 통해 여러 솔루션과의 호환성 확보가 필요하다. 자동 계층화를 통해 총소유비용(TCO)를 절감하는 방법도 모색해야 한다.

데이터 레이크 최적화 대응 솔루션 델 테크놀로지스 ‘파워스케일’
델 테크놀로지스의 ‘파워스케일(PowerScale)’은 데이터 레이크 스토리지 구성을 위한 필수 요소를 만족시킨다. 파워스케일 F900에는 All NVMe이 장착되어 기존 모델보다 높은 성능을 가지고 있다. RoCE(RDMA over Converged Ethernet)기술을 이용해 ‘NFS-over-RDMA’, ‘GPU 다이렉트’ 기술 지원으로 올 플래시 스토리지의 기능을 모두 끌어낼 수 있다.

파워스케일은 컴퓨트 노드와 데이터 노드를 물리적으로 분리되도록 구성이 가능하다. 이는 파워스케일이 미들웨어, 플러그인 없이 HDFS 프로토콜을 지원하기 때문이다. 이레이저 코딩(Erasure Coding) 알고리즘을 통해 데이터를 보호해 스토리지 전체 용량을 효율적으로 이용할 수 있다.
 

데이터 레이크를 위한 주요 스토리지 기술
데이터 레이크를 위한 주요 스토리지 기술

메타 데이터를 별도 관리하지 않고 모든 노드에 보관해 가용성 문제를 해결했으며, 스토리지 용량만 증설하면 돼 합리적인 비용지출이 가능하다는 점도 장점이다.

파워스케일은 모든 데이터를 밸런싱 하는 기능이 있어 관리자가 신경 쓸 필요가 없다. 클라우데라의 품질관리 시험 QATS(Quality Assurance Test Suite) 인증을 완료해 해당 제품을 사용하는 고객은 클라우데라의 ‘클라우데라 데이터 플랫폼(CDP)’으로 전환할 때 더 많은 지원을 받을 수 있게 됐다. ‘델 EMC 파워스케일’은 ‘CDP’를 완벽 지원하며 유연성, 확장성, 비용효율성을 갖췄을 뿐만 아니라 언제 어디서나 데이터를 액세스하는 데에 가장 적합한 공유 스토리지 통합을 지원한다.

파워 스케일 도입을 통해 폭증하는 데이터 증가에 대응한 고객사 사례를 살펴보면 A고객사는 1세대 빅데이터 아키텍처로 구성된 110여대의 물리 서버로 하둡을 사용하고 있었다. A사는 모두 6개의 랙 분량으로 900TB 용량의 데이터를 저장했지만 3중 복제를 통해 실제 2.7PB의 용량을 저장해 사용했다. 이를 통해 서버 대수가 많아진 만큼 IDC에 상면 임대료로 인한 비용이 발생했다. 실제 전기료도 최대 140KW를 사용할 정도였으며 때문에 A사는 용량증설에 대한 고민과 함께 데이터 관리 부담을 느끼게 됐다.

A사는 데이터의 지속적인 증가로 컴퓨트 노드가 포함된 물리 서버를 늘릴 수밖에 없었는데 전체 CPU는 30% 이하로 사용돼 효율적으로 자원을 사용하지 못한다는 점도 있었다. 때문에 상면, 전력 등의 비용을 바로잡을 개선책이 필요했다.

관리상 데이터 밸런싱 문제도 있었다. HDFS를 사용하면서 기존 서버와 신규 서버의 데이터 밸런싱이 어려웠다. 매번 수동으로 데이터를 이전할 수 밖에 없었는데 향후 비즈니스가 성장해 데이터가 늘어날 경우 이러한 수동 작업이 늘어날 수 밖에 없는 구조다.

네임 노드의 경우도 HDFS는 메타데이터 서버인 네임노드를 사용해야 하는데 액티브 스탠바이모드로 이중화됐지만 실제 사용은 하나의 노드에서 이뤄지는 만큼 가용성 문제가 있었고 네임노드의 CPU나 메모리 한계로 문제가 발생하였다.

델 테크놀로지스는 새로운 데이터 레이크 아키텍처를 제안하여 40대의 물리 서버로 컴퓨트 노드를 구성하고 스토리지는 파워스케일을 도입했다. 고객 IDC 상면이 절반 이상 줄어들었고, A사는 향후 5년간 전체 TCO의 2.4배를 절감할 수 있을 것으로 보고 있다.

델 테크놀로지스의 파워스케일은 △3중 복제 불필요로 효율적 용량 관리 △네임노드의 스케일 아웃 구조 전환으로 성능 및 가용성 증대 △컴퓨터 노드와 스토리지 노드를 아키텍처 분리로 비용 절감 △용량 증설시 자동으로 데이터 밸런싱을 통해 관리 부담 감소 △압축/중복제거, 복제, 스냅샷, 오토 티어링, 부하분산 등의 엔터프라이즈 제품의 기능을 그대로 사용 △멀티 프로토콜 제공을 통해 동일한 데이터를 NFS, SMB, HDFS, FTP, S3와 같은 다른 방법으로도 사용 가능 등의 이점을 제공하고 있다.

전자신문인터넷 유은정 기자 (judy6956@etnews.com)

[알림] 전자신문인터넷과 GTT KOREA는 오는 3월 23일 수요일 오전 9시 30분부터 오후 4시 40분까지 “2022 비즈니스 향상을 위한 기업 데이터 인사이트 구축과 스마트 활용 전략” 무료 온라인 콘퍼런스를 개최한다. 데이터 산업의 주요 글로벌 리더 기업들의 데이터 관련 기술과 활용 정보를 소개하고 데이터 경제 시대에 급변하는 기술과 고객 요구 사항에 빠르게 대응할 수 있는 데이터 인사이트와 플랫폼 활용 전략을 다양한 사례를 통해 제시한다.