AI와 빅데이터 활용을 최적화하는 데이터 레이크 전략은?

[AI∙빅데이터 솔루션] 데이터 저장∙분석∙운영 까지 통합 지원하는 효성인포메이션시스템 ‘데이터 레이크 오퍼링’ 서비스

데이터 활용이 디지털 혁신의 핵심이 되면서 산재해 있는 다양한 데이터를 한곳에 모으는 것부터 추출, 분석을 통한 인사이트를 창출하는 것이 기업들의 과제로 부상하고 있다. 이런 상황에서 데이터 레이크는 최적의 대안으로 부상하고 있다. 효성인포메이션시스템의 ‘데이터 레이크’ 전략과 솔루션은 기업이 완벽한 데이터 혁신의 밑그림과 현실화 방향을 제시해준다.

빅데이터 저장∙관리를 위한 ‘데이터 레이크’

데이터에서 인사이트를 얻으려면 데이터의 흐름을 잘 알아야 한다. 기존의 방법으로는 시간이 오래 걸리고, 수집된 데이터가 ‘전부’인지 확신할 수 없지만 기업의 데이터를 ‘한 곳에 모아 놓고’ 접근한다면 수월해진다.

데이터 저장과 관리를 위한 ‘데이터 레이크(Data Lake)’는 데이터 사일로 현상을 방지하고, 데이터 분석을 위한 모든 종류의 데이터 취합에 탁월한 ‘데이터 중앙공급소’라 할 수 있다. 데이터 레이크를 활용하면 미리 정해 놓은 목적 없이도 정보를 저장하고, 셀프서비스 분석 플랫폼으로도 사용이 가능하다. 특히 제조, 통신 등 현장에서 생성되는 실시간 데이터까지 결합할 수 있어 기업이 데이터를 혁신하는 데 중요한 역할을 한다.

확장성과 경제성이 높은 클라우드가 데이터 레이크의 대안으로 제시되며 많은 기업이 데이터를 클라우드로 이전하고 있다. 다수의 개별 데이터 레이크를 클라우드로 이전할 때는 ▲다양한 유형의 데이터의 저장 ▲애플리케이션과 데이터 저장소 ▲새로운 데이터 환경에서 데이터 운영의 통제 ▲필요한 시점에 필요한 데이터를 찾는 방법 등 다양한 사항을 고려해야 한다. 또한 산업 현장에서 쏟아지는 엣지(edge) 데이터 관리도 요구된다.

AI와 빅데이터 활용을 최적화하는 데이터 레이크 전략은?

데이터 레이크 프로젝트의 한계

2014년에 처음 등장한 데이터 레이크는 다양한 프로젝트로 진행되어 왔으나, 기업의 데이터 혁신을 실행하는 데는 여러 한계가 있었다. 포레스터(Forrester) 리서치에 따르면, 기업 내부에는 서로 다른 접근방식의 데이터 레이크가 평균 8개씩 존재한다.

데이터 자체가 분산되어 있다 보니 한 곳에 모든 데이터를 담아 인사이트를 도출하고자 하는 데이터 레이크의 본래 목적을 달성하지 못하는 경우가 많았다. 또한, 데이터 레이크 프로젝트의 대부분은 정형 데이터에 집중되어 있어, 기하급수적으로 늘어나는 비정형 데이터와 반정형 데이터를 포함해 다양한 데이터 타입을 아우를 수 없다는 점도 문제였다.

전통적인 정보계 시스템은 정형 데이터를 기반으로 필요한 데이터를 추출하는 데 익숙한 솔루션이다. 그러나 대부분 수작업이고 여러 형태의 데이터의 취합과 추출에 많은 시간이 필요하다. 정보계 시스템의 한계를 극복하기 위해 등장한 빅데이터 분석 아키텍처 역시 데이터를 각각의 업무 흐름에 맞게 분산 저장하고 분석하는 빅데이터 통합 플랫폼의 역할에 한정되어 있다는 것이 단점이다.

오브젝트 스토리지 기반 데이터 레이크 환경 구현

데이터가 늘면 인프라 비용 부담도 덩달아 커진다. 기업들은 유연성과 확장성이 뛰어난 클라우드로 데이터를 이전하기 시작했지만, 데이터 관리의 복잡성과 산업 현장에서 쏟아지는 에지 데이터 관리가 걸림돌이었다. 필요한 장소에서 바로 데이터를 쓰고, 데이터 저장 및 관리 비용이 과도하게 커지는 것을 방지할 수 있는 인프라가 절실했다.

대규모 데이터를 처리하면서 전체 데이터를 한 곳에 담아 놓고 필요할 때 꺼내 쓸 수 있는 가장 비용 효율적인 솔루션은 오브젝트 스토리지다. 오브젝트 스토리지는 데이터를 파일이나 블록이 아닌 객체 단위로 관리하고, 모든 유형의 정형·비정형 데이터를 지원한다. 오브젝트 스토리지를 활용하면 IoT(사물인터넷) 센서 데이터나 동영상, 이미지 같은 새로운 유형의 데이터와, 기업 내에 쌓인 방대한 과거 데이터를 적절하게 활용해 필요한 가치와 인사이트를 찾아낼 수 있다.

효성인포메이션시스템은 데이터 레이크 전략에 데이터 유형에 상관없이 다양한 데이터를 저장하는 오브젝트 스토리지 ‘HCP’를 적극 활용하고 있다. ‘HCP(Hitachi Content Platform)’는 대규모 비정형 데이터 환경의 안정적 운영과 공유 서비스를 단일 플랫폼에서 지원한다. 비정형 데이터의 탁월한 저장 관리 기술력을 기반으로 퍼블릭 클라우드 및 빅데이터 솔루션과 원활한 연계, 오브젝트 스토리지의 강점인 유연한 스토리지 용량 추가, 스토리지 관리 비용 절감, 비즈니스 민첩성 향상 등을 제공한다.

HCP는 AI 기반 데이터 레이크 환경 구현을 위해 멀티 테넌트 구성으로 원본∙가공 데이터 저장 및 관리 자동화로 효율을 높인다. BI∙DW 영역 데이터 플래랫폼으로도 활용할 수 있다. 빅데이터 등 대내 정보계 업무 시스템과 데이터 공유가 가능하며, 대용량 데이터의 보호 및 웜 데이터 조회 필요 시 신속한 데이터를 제공해 기업 데이터 전략을 강화한다.

효성인포메이션시스템 오브젝트 스토리지 솔루션 ‘HCP’
효성인포메이션시스템 오브젝트 스토리지 솔루션 ‘HCP’

싱가포르 정부는 하둡 환경에 오브젝트 스토리지를 적용해 데이터 수집 성능과 안정성을 높였다. 기존 싱가포르 정부 클라우드 시스템은 로그 파일 분석을 위해 파일을 NFS(Network File System)에 수집하고, 분석을 위해 다시 하둡에 전송하는 형태였다. 그러나 로그 양이 증가하고 상관분석을 위한 데이터 보관 주기가 늘어남에 따라 NAS 적재 성능 이슈가 발생했다. NAS 및 하둡 스토리지 증가에 대한 비용 부담이 증가하고 작업 부하가 걸리는 등 여러 어려움이 발생했다.

이에 대한 해결 방안으로 싱가포르 정부는 오브젝트 스토리지를 도입, 실시간 대용량 로그 처리 방식을 변경하고 파일 포맷 변환을 통해 데이터 수집 성능과 안정성을 높였다. 하둡과 오브젝트 스토리지 간 명확한 처리량 목표를 제시해 하둡 분석(Hive/Impala) 성능 향상을 도모했다. 원활한 분석을 위한 적정 처리량을 찾고, 물리적 컴퓨팅과 스토리지 노드를 구성해 향후 개별 노드 확장이 가능한 유연한 환경을 구현했다.

이처럼 오브젝트 스토리지를 기반으로 하는 ‘클라우드 분석 아키텍처’는 데이터 가치를 최대로 창출할 수 있는 최적의 데이터 레이크 전략이라고 할 수 있다.

하드웨어 인프라∙솔루션∙컨설팅 통합 제공하는 ‘데이터 레이크 오퍼링’ 서비스

데이터 레이크 수요 증가에 맞춰 효성인포메이션시스템은 ‘데이터 레이크 오퍼링’ 서비스를 제공하고 있다. 데이터 레이크 오퍼링은 데이터 저장부터 분석, 운영 관리까지 하드웨어 인프라와 데이터 솔루션을 통합해 기업이 필요로 하는 데이터 레이크 인프라를 구축하고 운영 전략을 컨설팅하는 차별화된 맞춤형 서비스다.

데이터 레이크 오퍼링은 오브젝트 스토리지, HCI(하이퍼컨버지드 인프라), GPU 서버, 하이엔드 스토리지 등 디지털 인프라 구현부터 데이터 레이크 관리, 데이터 통합, 데이터 카탈로그, 비즈니스 분석, 엣지 인텔리전스를 포괄하는 솔루션과 서비스까지 모두 제공한다. 데이터 레이크 솔루션과 오픈소스를 함께 구성해 기업 내 데이터 조직을 위한 도커 기반의 컨테이너 환경을 구축하거나, 데이터 추출부터 처리, 보관, AI/ML 분석까지 포함하는 올인원 빅데이터 인프라와 플랫폼 구현이 가능하다.

효성인포메이션시스템은 최근 출시한 HCSF(Hitachi Content Software for File)를 통해 시장을 확대할 계획이다. HCSF는 고성능 컴퓨팅, AI, ML(머신러닝) 등에 최적화된 스토리지로, 고성능 병렬 파일시스템과 오브젝트 스토리지 HCP를 통합한 솔루션이다.

효성인포메이션시스템 ‘데이터 레이크 오퍼링’ 서비스
효성인포메이션시스템 ‘데이터 레이크 오퍼링’ 서비스

데이터 레이크는 고성능과 대규모 데이터 저장소가 필수적인데, 두 가지 조건을 충족하려면 ‘성능 제공’과 ‘데이터 수용’의 균형이 맞아야 한다. 따라서 정형, 비정형, 반정형 데이터를 한 곳에 넣어두고 용도에 따라 꺼내 쓸 수 있으며, 대형 생산라인에서 매초 쏟아지는 데이터를 실시간으로 분석하고자 하는 기업에는 오브젝트 스토리지의 장점에 속도까지 겸비한 HCSF가 최적의 선택일 수 있다.

효성인포메이션시스템은 주요 통신사 및 제조사 등에서 굵직한 프로젝트를 성공적으로 마무리하며, 고객들에게 데이터 레이크 프로젝트의 가치를 높이고 있다. 향후 기업들이 데이터 혁신의 밑그림을 그리고 현실화할 수 있도록 종합적인 서비스 제공과 함께 각 산업 분야에서 의미 있는 레퍼런스를 확대해 시장을 주도해 나갈 전략이다.

이향선 전자신문인터넷기자 hyangseon.lee@etnews.com

[알림] 전자신문인터넷과 넥스트데일리는 오는 9월 9일 목요일 오전 9시 30분부터 오후5시까지 “2021 AI & Big Data Smart Convergence” 무료 온라인 콘퍼런스를 개최한다. 이 행사에서는 AI와 빅데이터 분야 글로벌 기업들의 기술과 실무 적용 노하우와 성공 사례를 공유해 기업의 업무 효율을 높이고 비즈니스 확대와 새로운 비즈니스를 창출할 수 있는 전략을 제시한다.