기업의 디지털 혁신은 기업 내 데이터를 ‘모두 활용’할 수 있을 때 성공할 수 있다. 최근 산재해 있는 다양한 데이터를 한곳에 모으는 것부터 추출, 분석을 통해 인사이트를 창출하려는 기업이 늘고 있다. 모든 데이터에서 인사이트를 얻으려면 데이터의 흐름을 알아야 하지만 기존의 방법으로는 시간이 오래 걸리고, 수집된 데이터가 ‘전부’인지 확신할 수 없다. 그러나 기업의 데이터를 ‘한 곳에 모아 놓고’ 접근한다면 데이터의 가치를 높일 수 있다.
데이터 저장과 관리 전략인 ‘데이터 레이크’는 데이터 사일로 현상을 방지하고, 데이터 분석을 위한 모든 종류의 데이터 취합에 탁월한 ‘데이터 중앙공급소’라고 할 수 있다. 데이터 레이크를 활용하면, 미리 정해놓은 목적 없이도 정보를 저장하고, 셀프서비스 분석 플랫폼으로도 사용할 수 있다. 특히 제조, 통신산업 등 현장에서 생성되는 실시간 데이터까지 결합할 수 있어 기업이 데이터 혁신을 이루는 데 중요한 역할을 한다.
AI/ML 인사이트 제공을 위한 데이터 레이크 환경 구현
효성인포메이션시스템은 데이터 레이크 전략을 위해 데이터 타입에 상관없이 다양한 데이터를 저장하는 오브젝트 스토리지 ‘HCP’부터 데이터의 체계적인 관리를 지원하는 ‘루마다 데이터 카탈로그’, 빅데이터 통합 분석 플랫폼 ‘펜타호’를 기반으로 컨설팅부터 인프라, 솔루션 구축, 운영 서비스까지 올인원 서비스를 제공하고 있다. 여기에 고성능 컴퓨팅, AI, ML(머신러닝) 등에 최적화된 스토리지 ‘HCSF(Hitachi Content Software for File)’를 통해 시장 영역을 크게 넓히고 있다.

① 데이터 수집과 카탈로그 자동화
오늘날 데이터 분석은 단순 분석을 넘어 AI/ML 기반 인사이트를 제공하며 다양한 산업에서 디지털 혁신을 주도하고 있다. 이러한 인사이트를 확보하려면 빅뱅급의 데이터를 적절하게 분류하고 태깅하는 작업을 위한 새롭고 지능화된 방법이 필요하다.
최근 소셜미디어, IoT 등의 발전으로 분석해야 할 비정형 데이터가 늘어나고 있다. 다양한 소스에서 발생되는 비정형 데이터를 정규화하고 정제 및 저장, 카탈로그화하는 방법이 필요하며, 이미지나 텍스트 기반으로 된 데이터들을 태깅하고 분류하는 작업을 자동화하는 툴이 발전하고 있다. 대표적으로 펜타호 PDI(Pentaho Data Integration)와 루마다 데이터 카탈로그가 있다.
PDI는 사전에 준비된 플러그인을 통해 정형 데이터뿐 아니라 다양한 데이터 소스에서 비정형 데이터를 수집하고 변환하는 작업을 손쉽게 진행할 수 있도록 해준다. 루마다 데이터 카탈로그는 이들 데이터에 대해서 AI기반으로 자동으로 태깅하고 민감정보를 관리하여 개인정보보호법 등의 데이터 규정 준수를 할 수 있도록 지원한다. 이러한 작업의 핵심은 자동화이며, 어떻게 하면 사람의 수작업을 줄이고 자동화해 폭증하는 데이터를 빠르게 자산화 하는데 초점을 맞추고 있다.
② 오브젝트 스토리지 기반의 데이터 레이크 환경 구현
데이터가 늘면 인프라 비용 부담도 증가한다. 기업들이 유연성과 확장성이 뛰어난 클라우드로 데이터를 이전하기 시작했지만, 데이터 관리의 복잡성과 제조 및 통신 등 산업 현장에서 쏟아지는 에지 데이터 관리가 걸림돌이었다. 필요한 장소에서 바로 데이터를 쓰고, 데이터 저장 및 관리 비용이 과도하게 올라가는 것을 막는 인프라가 절실했다.
대규모 데이터를 처리하면서 전체 데이터를 한 곳에 담아 놓고 필요할 때 꺼내 쓸 수 있는 가장 비용 효율적인 솔루션은 오브젝트 스토리지다. 오브젝트 스토리지는 데이터를 파일이나 블록이 아닌 객체 단위로 관리하고, 모든 유형의 정형·비정형 데이터를 지원한다. 오브젝트 스토리지를 활용하면 IoT(사물인터넷) 센서 데이터나 동영상, 이미지 같은 새로운 유형의 데이터와, 기업 내에 쌓인 방대한 과거 데이터를 적절하게 활용해 필요한 가치와 인사이트를 찾아낼 수 있어 수요가 급증하고 있다.
효성인포메이션시스템의 HCP(Hitachi Content Platform) for Cloud Scale는S3와 호환되는 엔터프라이즈 오브젝트 스토리지로 수십년의 기업 고객을 대상으로 판매해 온 히타치 밴타라의 데이터 거버넌스 노하우가 집대성 된 오브젝트 스토리지다. 아마존 S3와 완벽한 호환 및 연동이 가능한 하이브리드 클라우드 오브젝트 스토리지일 뿐 아니라, 데이터 거버넌스와 보안에도 특화되어 있다. 또한, 도커 컨테이너 기반의 소프트웨어 정의 스토리지로 퍼블릭 클라우드에서 운영할 수 있다.

③ AI/ML을 위한 고성능 고효율 분석을 위한 데이터 스토리지의 활용
데이터 폭증으로 한번에 분석해야 할 데이터 양이 최소 수백 테라에서 페타바이트 이상 넘는 추세다. NVMe 기반 병렬처리 시스템은 수십 기가바이트 이상의 데이터 처리를 위해 분석 환경을 최적화해 주면서 폭증한 데이터를 처리하는데 효과적이다.
하지만 고가의 스토리지 NVMe는 페타바이트 이상 저장하려면 비용이 부담이 될 수 있다. 그리고 대부분의 데이터는 초기에 많은 I/O를 소요하지만 시간이 지날수록 액세스 빈도가 급격히 낮아진다. 따라서 액세스 빈도가 낮아지는 데이터를 애플리케이션에 영향 없이 스토리지에서 티어링으로 더 저렴한 스토리지로 이동하면 비용을 절감할 수 있다.
효성인포메이션시스템의 HCSF(Hitachi Content Software for File)는 wekaFS를 기반으로 NVMe 전용 병렬파일시스템을 통한 고성능 I/O처리와 HCP와 결합하여 warm/cold 데이터를 티어링으로 저장하여 무제한 파일을 저장할 수 있는 스토리지 솔루션이다. HCP 데이터는 퍼블릭 클라우드의 S3호환 오브젝트 스토리지와 백업 연동하여 데이터 저장 영역을 타 클라우드로 확장할 수 있다.
티어링으로 파일이 이동되었더라도 백엔드에서만 저장 위치가 변하게 되어, 스토리지를 사용하는 분석 애플리케이션에서는 이를 인지 하지 못한다. 만약 분석 애플리케이션이 warm/cold tier인 HCP의 데이터를 액세스할 때 해당 데이터는 다시 Hot tier인 NVMe 스토리지로 이동하여 서비스 해주며, 이 모든 작업은 사용자 입장에서 별도의 작업이 필요 없이 자동으로 지원되어 효율적으로 빅데이터를 관리할 수 있다.
데이터 레이크 기반 데이터 혁신 기업 사례
불과 몇 년 전만 해도 국내에서 오브젝트 스토리지는 금융기업의 컴플라이언스, 거버넌스 대응, 공공기관의 데이터 영구 보관을 위한 아카이빙, 정책 기반 데이터 운영이 주 목적인 보조 스토리지 개념이었다. 그러나 최근 하둡, 빅데이터 분석, 정보계 응용 같은 활용 사례가 증가하고 있다. 오브젝트 스토리지 기반의 데이터 레이크를 구축한 두 가지 사례를 살펴보자.
규모가 큰 데이터 웨어하우스 환경을 갖춘 A사는 차세대 시스템에 어울리는 아키텍처 도입, 갈수록 늘어나는 데이터 마트 서비스 요구를 소화할 방법, 그리고 기존 운영 환경의 변화 없이 운영 비용을 절감할 방안을 고민했다.
효성인포메이션시스템은 A사를 위해 HCP 기반의 데이터 레이크 구축 전략을 세 가지 수립했다. 먼저 Warm 데이터를 오브젝트 스토리지로 전환해 DW 시스템의 운영 리소스를 확보하고 비용 절감 효과를 거둘 수 있었다. 둘째, 오브젝트 스토리지로 필요한 데이터를 전환하고 서비스를 제공함으로써 소프트웨어의 데이터 마트 운영 부담을 낮췄다. A사는 데이터 웨어하우스의 운영 효율성을 높이고 새로운 서비스 방향까지 수립할 수 있었다. 마지막으로 기존 정책은 유지하면서 오브젝트 스토리지 기반으로 데이터 복구 체계를 전환해 더 높은 수준의 데이터 활용 환경으로 진화했다.
B사는 늘어나는 데이터 수요를 감당하면서도 성능과 확장성을 확보하고, 컨테이너와 사용자 관리를 쉽게 하며, 비용 절감을 위해 Swift를 도입했지만 투자대비효과(ROI)가 생각보다 높지 않아 고민이었다.
효성인포메이션시스템은 B사를 위해 세 가지 전략을 수립하고 HCP 기반 데이터 레이크를 구축했다. 먼저, 데이터 및 서비스 수요 증가에 대응할 수 있도록 HCP를 도입해 데이터 서비스 성능을 확보했다. 둘째, 인프라가 하나의 데이터센터에 집중된 환경을 3개 데이터센터 환경으로 개선하는 인프라 계획을 수립해 Swift 오브젝트 스토리지의 한계를 극복했다. 셋째, 단순한 저장소와 권한 관리 체계를 확보해 오브젝트 스토리지의 운영 효율성을 개선했다. B사는 HCP 도입을 통해 Swift 환경 대비 데이터 보호 비용을 절감할 수 있었다.
HCSF를 도입하여 성공적으로 데이터 레이크 환경을 구현한 고객 레퍼런스도 점차 많아지고 있다. 국내 한 대형 제조기업은 ‘데이터 분석 플랫폼 구축 프로젝트’에 HCSF를 도입했다. 향후 AI 분석까지 고려하여 최신 기술들이 적용된 혁신적인 솔루션을 도입하고자 했던 고객은 HCSF를 기반으로 데이터의 수집과 활용, 관리를 위한 데이터 레이크 및 통합 운영체계를 구축해 대용량 데이터 증가 시 선형적으로 확장 가능한 아키텍처와 고성능 데이터 자동 티어링으로 IT 비용 절감도 기대하고 있다.

‘데이터 레이크’ 전략과 솔루션은 기업이 완벽한 데이터 혁신의 밑그림을 그리고 현실화할 수 있는 길을 열어 줄 수 있다. 효성인포메이션시스템은 한층 강화된 기술력과 다양한 사업 구축 경험을 토대로 데이터 레이크 시장을 적극 공략할 계획이다.
전자신문인터넷 유은정 기자 (judy6956@etnews.com)
[알림] 전자신문인터넷과 GTT KOREA는 오는 3월 23일 수요일 오전 9시 30분부터 오후 4시 30분까지 “2022 비즈니스 향상을 위한 기업 데이터 인사이트 구축과 스마트 활용 전략” 무료 온라인 콘퍼런스를 개최한다. 데이터 산업의 주요 글로벌 리더 기업들의 데이터 관련 기술과 활용 정보를 소개하고 데이터 경제 시대에 급변하는 기술과 고객 요구 사항에 빠르게 대응할 수 있는 데이터 인사이트와 플랫폼 활용 전략을 다양한 사례를 통해 제시한다.