국내 기업 데이터센터 화재로 국민 대다수가 사용하는 메신저가 장시간 먹통이 됐다. 계열사 플랫폼 서비스까지 장애가 발생하면서 일상이 마비되는 수준의 불편을 겪었다. 서비스 복구에 10시간 이상 걸리면서 기업에 대한 신뢰도는 하락했다. 피해 보상까지 감안하면 엄청난 유무형 손실이 예상된다.
불행 중 다행으로 사고 이후, 많은 기업이 데이터센터 안정성을 점검하고 투자를 타진하기 시작했다. 데이터센터 관련 투자 규모가 작지 않지만 사고가 발생했을 때 감수해야 할 손해가 훨씬 크다는 것을 지켜봤기 때문이다. 전문가들은 '비즈니스 연속성' 확보가 기업 숙제로 부상했다고 강조했다.
◇관건은 '비즈니스 연속성'
IDC에 따르면 기업 90% 이상이 데이터센터 이상으로 예상치 못한 서비스 중단을 경험했다. 시간당 손실 비용은 평균 5000만원, 5억원이 넘는 기업 비중도 25%나 됐다.
디지털 전환 가속화로 데이터센터 중단에 따른 피해도 커지면서 기업의 인식도 달라지기 시작했다. 많은 기업이 데이터센터 무중단 운영에 필요한 투자를 필수로 여기기 시작했다.
이런 상황에서 '비즈니스 연속성' 개념이 주목받고 있다. 어떤 상황에서도 중단없이 서비스를 제공할 수 있는 상태로, 이를 구현하기 위한 IT 인프라 투자가 수반된다.
비즈니스 연속성을 구현하는 방안은 서버를 이중화하는 재해복구(DR), 고가용성(HA), 데이터 백업이 대표적이다.
기업은 특정 기능을 무조건 구현할 것이 아니라 연속성을 보장하는 방안을 찾는 분석을 거쳐 결정해야 한다. 업무 중요도, 서비스 특성 등을 고려해 연속성을 구현할 수 있는 최적 방안을 찾는 게 관건이다.
DR는 재난, 재해로 인해 소실될 위험에 데이터를 백업해 저장하고 자동으로 복구하는 장치를 말한다. 일반적으로 백업 데이터를 데이터센터와 다른 곳에 둔다. 데이터센터 안에 데이터를 백업해 두는 이중화보다는 한발 더 나아가, 장소를 분리하는 것이 핵심이다.
IDC '영구적 애플리케이션 가용성' 보고서에 따르면 DR는 데이터센터, 인프라를 복제하거나 DR 공급업체와 계약해 보조 인프라를 유지·관리하는 것을 말한다. DR센터는 실시간 데이터 복제 인프라로 구성되고 장애 시 즉각 서비스 기동을 지원한다. 서비스의 중요도에 따라 DR 모델도 구분된다.
'미러 사이트'는 주 데이터센터와 똑같은 구성의 복제 센터를 말한다. 기존 데이터센터의 데이터를 미러 DR 센터가 실시간으로 복제하고 항상 즉시 서비스가 가능한 상태로 대기한다. 미러 DR 센터의 데이터 복구 시간 목표(RTO)는 초단위다. 복구 시점 목표(RPO)는 거의 즉시로 데이터 손실이 없다. 다만, 기존 데이터 센터를 그대로 복제한다는 점에서 구축 비용이 가장 많이 든다.
'핫사이트'는 데이터 복제가 이뤄지지만 실시간급은 아니다. RTO가 최대 수십분이 될 수 있다는 점에서 미러 사이트보다 서비스 재개가 조금 늦을 수 있다.
'웜사이트'는 짧은 주기로 데이터를 백업하기 때문에 RTO가 수 시간까지 늦어질 수 있다. 데이터도 일부 손실될 공산이 있다.
'콜드사이트'는 데이터 백업 주기가 가장 길다. 미러 사이트처럼 기존 데이터 센터와 동일한 IT 인프라도 갖추지 않는다. RTO는 최대 수일이다. 백업 주기가 길지만 데이터 손실도 감수해야 한다.
◇HA·백업도 비즈니스 연속성 확보 주요 방안
금융기관이나 핀테크 등 전자금융사업자는 금융감독원의 전자금융감독규정에 따라 재난 재해 발생 시 DR 시스템을 3시간 이내에 가동해야 한다. 이에 DR는 규제가 강력한 금융 등 일부 기업이 주로 도입했다.
다른 성격의 서비스를 제공하는 기업이 무조건 DR 센터를 구축하는 것은 비효율적일 수 있다.
데이터 센터 탄력성을 위협하는 요인은 무궁무진하다. 소프트웨어 결함, 사용자 에러, 랜섬웨어, DDoS 등 논리적 위협요소, 운용 장비, 스토리지, 네트워크, 클라우드 플랫폼과 같은 인프라스트럭처 이상, 정전, 지정학적 불안 등이 비즈니스 중단 원인이 될 수 있다.
데이터 센터 이상을 초래하는 요인, 서비스 재개까지 요구되는 시간 등을 고려했을 때 HA, 백업이 적절한 대안인 경우도 있다.
HA는 DR와 유사한 개념이지만 같은 공간 안에 서버를 1대1로 복제한다는 점에서 다르다. A라는 서버에 이상이 생기면 복제한 B 서버가 곧바로 대체, 서비스를 가능케 한다.
백업은 서버 데이터를 저장장치에 복사해 두는 것을 말한다. 복사본을 같은 공간에 저장하거나 아예 나아가 다른 장소로 소산하는 경우도 있다.
HA가 수분 내 데이터를 복구할 수 있는데 반해 백업의 경우 몇 시간, 길게는 수일이 걸리는 일도 있다.
IDC는 보고서에서 “DR, HA 등 특정 기능 도입이 중요한 것이 아니라 어떻게 서비스 연속성을 구현할 것인가에 중점을 둬야 한다”면서 “기업이 원하는 것은 정형화된 기능을 도입하는 게 아니라 효율적 투자로 최선의 비즈니스 연속성을 확보하는 것”이라고 설명했다.
최호기자 snoop@etnews.com
베리타스, 무중단 서비스 주목
-
최호 기자기사 더보기