많은 기업이 비즈니스 성공을 위해 업무에 데이터 분석을 활용하고 있다. 다양한 분석 기법과 분석 프로그램, 분석 모델들이 빠르게 발전하며 기업의 업무들은 한층 향상됐다. 하지만 시간이 지나면서 쌓인 대규모 데이터를 신속하게 처리하려는 사용자의 요구를 가로 막는 것은 아이러니하게도 초기에 구축한 분석 환경이다. 온프레미스에 구축한 분석 환경은 장비의 노후화, 분석 프로그램의 업데이트와 초기 구축보다 증가하는 데이터 양을 고려하면 항상 최적의 상태로 유지하는 것이 상당히 어려운 일이다.
이에 많은 기업들이 클라우드 기반의 데이터 분석 환경으로의 전환을 고려하고 있다. 클라우드 환경은 △최신의 컴퓨팅 환경 제공 △데이터의 급증 시 쉬운 처리용량 확장 △방대한 데이터 저장의 직접 관리가 필요 없다는 등 여러 이점이 존재하기 때문이다. 기업은 오로지 데이터 분석에만 전념할 수 있어 기업 핵심 목표에 더욱 집중할 수 있다.
하지만 기업의 핵심 가치인 데이터를 외부에 저장한다는 것에 대해 기업 데이터가 유출이 되지 않을까 하는 우려도 있다. 클라우드 서비스 제공업체는 이러한 기업의 고민을 해결하기 위해서 다양한 보안 기법을 제공하고 있어 기업은 데이터 분석 등의 생산성을 극대화 시킬 수 있다.

데이터 보호, 시작은 사용자 권한 관리부터
구글 클라우드의 IAM(Identity & Access Management)는 사용자의 권한을 관리하는 도구이다. 클라우드 환경은 컴퓨트 엔진, 클라우드 스토리지 등 다양한 컴퓨팅 자원이 구성되고 그 위에 데이터가 저장된다. 이 과정에서 클라우드에 접근하는 기업 사용자에게 어떤 자원을 접근할지 또는 자원의 생성, 수정, 삭제 등과 같은 관리 업무를 제공할지가 매우 중요하다.
소수의 관리자에게만 이러한 권한을 부여하면 과중한 부담으로 작용한다. 클라우드 환경에서는 여러 팀이 공유하는 프로젝트도 있지만, 어떤 프로젝트는 해당 팀이 아닌 특정 인원, 특정 그룹만 접근해야 하는 요구사항이 발생하기도 한다. 만일 클라우드 서비스에서 이러한 설정을 지원하지 못한다면 관리자는 세밀한 권한 관리를 지정할 수 없다.
구글 클라우드는 사용자별, 그룹별로 모든 클라우드 자원의 권한을 관리할 수 있는 IAM을 기본으로 제공한다. 권한 분야에서 관리자가 가장 크게 고민하는 것은 사용자가 너무 과도한 권한을 가지고 있지 않은 가이다. 사용자별 권한 검사를 위해서 구글 클라우드는 IAM recommender를 제공한다. IAM recommender는 해당 사용자의 이전 90일간의 클라우드 활동을 검사한다. 이후 실제 부여된 권한과 계정이 활동했던 내용을 비교 분석한다. 이후 사용하지 않은 권한, 과도한 권한을 관리자에게 알려준다. 관리자는 이 분석 결과를 기반으로 사용자에게 부여된 과도한 권한을 제거하는 등의 보안 조치를 수행할 수 있다.
![구글 클라우드 IAM recommender는 사용자별 권한 검사로 효율적인 권한을 부할 수 있다]](https://img.etnews.com/news/article/2022/03/02/cms_temp_article_02093203560466.png)
구글 클라우드는 모든 데이터를 자동으로 암호화하여 보관
클라우드 환경에서는 데이터 자체를 보호하는 기능 역시 중요하다. 구글 클라우드의 가장 큰 장점은 모든 데이터를 자동으로 암호화 한다는 것이다. 데이터는 전송데이터, 저장데이터, 사용 데이터 세 가지 상태로 구분하는 것이 일반적이다. 전송데이터 암호화는 네트워크에 흐르는 데이터를 보호하는 방법이다. 구글 클라우드는 최신 TLS 버전을 이용하여 전송 과정의 데이터를 암호화한다. 또한 구글 클라우드는 사용자가 아무런 조치를 하지 않더라도 모든 데이터를 자동으로 암호화시킨 다음에 클라우드 저장소에 보관한다.
구글 클라우드가 제공하는 또 다른 데이터 보호 대책은 사용중인 데이터를 보호하는 조치이다. 모든 데이터는 처리를 위해서 컴퓨트 엔진의 메모리에 적재되어야 한다. 저장소에 암호화된 데이터는 데이터 처리를 위해서 복호화 된 후 메모리로 적재되고 CPU가 이를 처리한다. 공격자는 평문상태의 메모리 값을 읽어서 중요 데이터를 유출하는 공격을 시도한다. 구글 클라우드는 이런 위협 대응을 위해 컨피덴셜 컴퓨팅을 제공한다. 컨피덴셜 컴퓨팅 기능을 활성화 시키면 메모리에서도 데이터가 암호화된 상태를 유지할 수 있다.
전송 계층, 저장 계층에 추가하여 데이터를 처리하는 동안에도 암호화 상태를 유지하므로 공격자는 데이터를 인식할 수 없어 더욱 안전한 환경을 제공한다. 저장 데이터 보호에는 AES 256과 같은 강력한 알고리즘을 사용한다.
데이터 내의 민감정보 확인 및 비식별화는 클라우드 DLP로 해결
기업내 데이터 레이크가 활성화되면 수많은 데이터가 쌓이게 된다. 하지만 너무나도 방대한 데이터의 저장은 정작 필요한 데이터를 찾는데 어려움을 유발한다. 또한 수많은 데이터에서 옥석을 가려야 하고 유출 시 기업에 큰 피해를 입히는 개인정보와 같은 민감 데이터는 주의 깊게 다뤄야 한다.
기업이 보유한 데이터는 거의 대부분 생산자만이 데이터의 특성을 이해하고 한 단계만 건너도 데이터의 속성이나 특성을 이해하지 못하는 경우가 많다. 데이터 레이크 관리자는 분석 환경의 관리자이지 데이터 생산자가 아니기 때문에 더욱 그럴 수 있다. 이때 구글 클라우드에서 제공하는 클라우드 DLP는 아주 유용하게 사용할 수 있다.
클라우드 DLP는 기업이 보유한 데이터에서 민감한 정보를 찾고, 분류하고 보호하기 위해 설계된 관리형 서비스이다. 클라우드 DLP를 사용하기 위해서 반드시 데이터가 구글 클라우드에 위치해야 하는 것은 아니다. 클라우드 DLP의 API를 호출해 기업내에 보관중인 데이터를 식별하고 분류할 수 있다.
DLP는 150여개의 기본 탐지 패턴을 제공한다. 만일 기본 패턴에 원하는 형식이 없는 경우 관리자는 표준 정규표현식을 사용하여 신규 탐지 패턴을 추가할 수 있다. 그러므로 기업이 운영하는 고유의 데이터 포맷일지라도 얼마든지 탐지와 분류가 가능하며 이는 데이터 분류 작업에 큰 도움이 된다.

클라우드 DLP로 데이터를 검사하면 해당 결과는 구글 클라우드 BigQuery 또는 Cloud DLP의 이벤트로 생성이 된다. 이렇게 생성된 결과는 다양한 관리자 이메일 통지, 로그 통합채널인 Pub/Sub등 다양하게 연동할 수 있다. 또한 구글 클라우드의 보안 모니터링 도구인 시큐리티 커맨드 센터에서도 DLP 검사결과가 통합되므로 이상 데이터의 분류 등을 손쉽게 확인할 수 있다.
클라우드 DLP가 탐지한 민감정보는 관리자가 수정, 마스킹, 가명화 등을 통해서 데이터의 민감성을 제거할 수 있다.
전자신문인터넷 유은정 기자 (judy6956@etnews.com)
[알림] 전자신문인터넷과 GTT KOREA는 오는 3월 23일 수요일 오전 9시 30분부터 오후 4시 30분까지 “2022 비즈니스 향상을 위한 기업 데이터 인사이트 구축과 스마트 활용 전략” 무료 온라인 콘퍼런스를 개최한다. 데이터 산업의 주요 글로벌 리더 기업들의 데이터 관련 기술과 활용 정보를 소개하고 데이터 경제 시대에 급변하는 기술과 고객 요구 사항에 빠르게 대응할 수 있는 데이터 인사이트와 플랫폼 활용 전략을 다양한 사례를 통해 제시한다.