[비투엔 제안]빅데이터 플랫폼 활용 장애물을 뛰어넘는 전략 수립 필요

이일호 비투엔 DX1본부 이사(팀장)
이일호 비투엔 DX1본부 이사(팀장)

수많은 기업과 기관들이 점점 다양해지는 데이터를 효과적으로 활용하기 위해 빅데이터 분석 플랫폼을 앞다퉈 구축하고 있다. 기업이 보유한 데이터를 '데이터 레이크(Data Lake)'라는 풀(Pool)안에 담아두려는 인프라 확보를 시작으로 다양한 형태의 데이터를 수집하고 고도화된 분석을 통한 양질의 인사이트를 의사 결정자에게 제공하려는 노력을 기울이고 있다.

하지만 여전히 수많은 기업·기관들은 이미 구축해 놓은 데이터 플랫폼에 대해 회의적인 시각을 갖거나 빅데이터 분석 플랫폼을 운용하는 데 있어서 많은 어려움에 직면해 있는 것이 현실이다.

예를 들면 아래와 같은 여러 현실적인 고민을 안고 있다.

△구축해 놓은 데이터 플랫폼의 투자 수익성에 대한 의구심

△기 운용 중인 정보계/분석계 시스템과의 차별성

△빅데이터 자원 및 데이터 플랫폼에 대한 활용 증대 방안

△빅데이터 환경의 데이터, 서비스에 대한 정보 보안

기업 기관들은 이러한 고려사항들은 데이터 분석 플랫폼에 어떻게 적용할 수 있을지 고민이 필요하다.

◇데이터 플랫폼 운영 비용 절감을 위한 방안

최근 정보계 시스템은 폭발적인 데이터 저장공간을 고려한 인프라 장비 운용으로 인해 운영비용에 대한 고민이 커지고 있다. 이를 극복하기 위한 대안으로 대부분 기업에서는 데이터 생명 주기 관리, 데이터 압축 등 극복해 나갈 수 있는 여러 방안을 적용해 나가고 있을 것이다.

결국은 인프라 증설이라는 방법을 선택한다. 하지만, 최근의 정보계 장비는 어플라이언스라는 고가의 장비들로 운용되고 있는 곳이 많아 비용 확보라는 현실적인 벽이 존재한다.

이러한 부분을 감안해 현재 운용 중인 데이터를 핫(Hot)·콜드(Cold) 데이터로 저장 범위의 수평 분할을 한다면 시스템 여유 자원 확보, 데이터 저장 비용, 시스템 확장 등 측면에서도 비용 절감을 기대할 수 있다.

즉 대용량, 장기보유 데이터 등 콜드 데이터 분석은 하둡 데이터 플랫폼이 담당하게 하고, 최근의 핫 데이터에 대해서는 정보계 시스템을 통해 분석하게 하는 것이다.

다만 보관 기간이 종료된 민감 데이터와 같은 분리 보관 이슈가 있는 데이터에 대해 물리 삭제 처리를 하거나, 데이터 동기화 및 준 실시간성 반영이 필요한 대량 데이터 대상의 경우 아파 치 쿠드(Apache Kudu) 등 스토리지를 활용한 데이터 처리도 가능하도록 물리적 저장 방안을 고려해 볼 수 있겠다.

◇기 운용 중인 시스템과의 차별성

보유한 정보계 시스템과의 차별성에 대한 부분은 현 빅데이터 플랫폼 관계자들은 공히 공감할 것이다. 정보계 분석 소스데이터의 경우 대부분이 레거시 시스템의 정형 데이터에 국한되기 마련이다.

반면 빅데이터 플랫폼의 경우 비정형, 반정형 형태에 대한 수용이 가능하며, 실시간 성격의 비정형 데이터에 대해서도 카프카(Kafka), 플링크(Flink), 스파크 스트리밍(Spark Streaming) 등을 통해 실시간 데이터 수집 파이프라인 구성이 가능하다는 특성이 있다.

특히 대부분 기업에서 업무 참조를 위해 검색·참조하는 비정형, 반정형 형태의 다양한 문서 와 이미지 데이터를 활용한 통합문서 검색 서비스도 가능해진다. 텍스트 변환, 광학문자인식(OCR) 기술을 통해 텍스트 데이터 추출, 전처리, 수집 저장을 함으로써 데이터의 활용도를 확대할 수 있는 것이다.

정형화된 데이터를 넘어서는 데이터 수집 파이프 라인을 통해 보다 다양한 형태의 데이터를 인공지능(AI) 분석에 활용함으로써 기존 정보계 시스템과의 차별성을 보여 줄 수 있다.

◇빅데이터 플랫폼 활용 증대 방안

이미 구축한 데이터 분석 플랫폼에서는 사용자와 분석가 모두에게 활용성 강화와 사용 편의성 제공을 위한 방안 역시 필요하다. 이를 위해 사용자와 분석가 모두에게 가장 중요한 것은 수집된 데이터의 분류 체계와 출처(Lineage), 오너십·스튜어드십, 메타 데이터, 정형·비정형 데이터에 대한 검색, 분석 플랫폼 자원 관리 등 데이터를 잘 찾고 활용하기 위해 제공돼야 할 기반 서비스일 것이다.

데이터 분석가들은 다양한 형태의 데이터 분류체계, 프로파일 정보, 출처, 데이터 발생 규칙 등 분석의 소스가 되는 데이터를 이해하기가 쉽지 않다. 또 비즈니스 용어와 여러 지표 정의 등을 찾아 이와 관련한 IT 메타 데이터를 확인하고, 데이터에 대한 오너십 담당자와 협업이 가능하도록 데이터 오너십 정보 제공도 필요하다.

하지만 기존의 정형 데이터 관리를 위한 메타 데이터 관리 도구만으로는 이를 충분히 충족시키지 못하는 것이 사실이다. 또한 실제로 많은 기업들이 빅데이터 수집 플랫폼 구축에만 급급한 나머지 실제 활용성을 높이기 위한 노력과 기반 환경 제공에는 적극적이지 못한 실정이다.

기존 정보계 시스템에 비해 이용성이 떨어지는 현상에 직면하는 것도 현실적 문제이기 때문에 이러한 지원 서비스 구성이 절실하다. 데이터 분석을 위한 기반 환경 제공이 원활히 이뤄져야 비로소 분석가, 사용자의 셀프 서비스 분석이 실현될 것이다.

데이터 활용의 장애물, 2022 ITWorld 기사 참조
데이터 활용의 장애물, 2022 ITWorld 기사 참조

◇빅데이터 정보 보안 적용 방법

구축된 빅데이터에 대해 사용자의 접근성을 높이면서 필수적으로 적용되어야 할 데이터 보안 적용 방법에 대한 방안도 필요하다. 대부분의 기존 레거시와 정보계 시스템은 IT서비스관리(ITSM)의 접근 권한 서비스 관리를 통해 데이터·서비스 분류에 따라 접근 허용이 관리되어 왔다.

하지만, 최근에는 이를 연계·확장해 데이터 분류체계를 다시 수립하고 하둡 환경 내에 제공하는 데이터 접근 활동에 대한 보안과 감사 기능 등 새로운 보안체계의 필요성이 높아지고 있다.

기업에서 많이 사용하는 클라우데라 CDP(Cloudera Data Platform) 등 빅데이터 플랫폼 솔루션의 경우 아틀라스(Atlas)와 레인저(Ranger) 서비스를 통해 하둡 내 보관되는 데이터 분류체계 관리·권한 적용 기능을 웹 UI와 API를 통해 관리할 수 있다.

하둡 내 수집·저장된 데이터에 대해 분석가를 포함한 사용자들이 보다 쉽게 데이터 접근 권한을 신청하고 보안이 필요한 데이터는 적절한 분류체계로 관리하며 데이터 마스킹 또는 접근 제어를 통해 보안성을 담보하는 것이 관건이다.

빅데이터 플랫폼 활용 예시(출처:비투엔)
빅데이터 플랫폼 활용 예시(출처:비투엔)

마지막으로 앞서 강조한 것과 같이, 데이터 분석가·사용자 중심의 빅데이터 활용 체계를 마련하기 위해서는 분석 인프라를 갖춰야 한다. 뿐만 아니라 데이터 활용성을 높일 수 있는 거버넌스와 체계를 확보하기 위한 활발한 노력도 필요하다.

기존의 정보계·분석계 시스템이 포용하지 못했던 다양한 데이터에 대해 검색·분석이 가능한 환경을 제공하고, 분석가와 사용자가 보다 데이터에 쉽게 접근하는 기반을 제공하는 기업만이 급변하는 디지털 시대 흐름 속에서 살아남을 수 있을 것이다.