카카오 사태는 전력 케이블이 불에 타면서 복구까지 시간이 길어졌다. 리튬이온 배터리에 붙은 불 진화에 애를 먹으면서 전력 케이블의 소실을 막지 못했다. 화재가 리튬이온 배터리에서 발생했는지 주변에서 발생한 불이 리튬이온 배터리로 옮겨붙은 것인지는 명확하지 않다. 단 리튬이온 배터리 화재 진압이 쉽지 않다는 게 확인된 만큼 배터리실과 전력 케이블 위치 등을 점검하고, 필요하다면 재배치할 필요가 있다.
그러나 데이터센터 서비스 중단 요인은 화재뿐만 아니라 침수·정전·지진·전쟁 같은 아날로그 요인, 프로그램 오류나 해킹 같은 디지털 요인 등 다양하다. 서비스 중단을 막기 위해 이중화(HA)와 백업 등 재해복구(DR) 체계에 투자를 늘리는 게 가장 현실적인 대안이다. 데이터센터는 주요 전산 자원을 이중화해서 장애 발생 시 페일오버(업무 이관)를 통해 서비스 중단을 막는다. 주센터 이중화와 더불어 원격지에 DR센터를 두고 문제 발생에 대비한다.
문제는 상당수 국내 데이터센터가 주센터와 DR센터를 액티브-스탠바이 형태로 운영한다는 점이다. DR센터에 주기적으로 백업하지만 데이터 정합성 등 이슈로 장애 발생 시 복구에 시간이 걸린다. DR센터 서버의 운용체계(OS)나 데이터베이스(DB) 패치를 주센터와 같은 최신으로 유지하기도 쉽지 않다. 평상시에도 DR센터를 활용하는 액티브-액티브 구성을 활용하는 곳은 많지 않다. 운영 비용이 몇 배로 들기 때문이다. 멀리 떨어진 DR센터의 경우 레이턴시(지연시간) 때문에 액티브-액티브 구성이 쉽지 않다.
전문가는 실시간 복구를 위해 주센터와 가까운 곳에 액티브-액티브 DR 체계를 구성하고 장거리에 자연재해 등에 대비한 DR센터를 운영하는 방식을 고민해야 한다고 말한다. 스토리지의 경우 2대의 스토리지를 하나의 볼륨처럼 관리하는 재해복구 액티브-액티브 기술이 상용화돼 있다. 권필주 효성인포메이션시스템 전문위원은 “무중단 서비스 운영이 필요한 제조나 병원 등에서 근거리에 액티브-액티브 구성을 하는 사례가 있다”면서 “일정 거리 이상 DR센터 이격 규정 이행과 자연재해 등에 대비해 원거리에도 DR센터를 구성하는 것”이라고 말했다.
이상훈 베리타스코리아 지사장은 “백업의 경우 복구 시간 최소화에 초점이 맞춰지고 있다”면서 “과거처럼 일주일이나 야간이 아니라 30분마다 백업하고, 문제 발생 시 변경된 데이터만 복구하는 기술로 복구 시간을 줄일 수 있다”고 설명했다.
전문가는 DR 체계 구축에 2~4배의 비용이 들 수 있지만 장애가 발생하면 수십배에 이르는 비용과 이미지 손실이 생기게 됨을 잊지 말아야 한다고 강조한다. DR 체계 투자 확대 이외에 예측하지 못한 재난에 신속히 대응할 수 있도록 재난 대응 매뉴얼 최신화와 주기적 훈련이 필요하다고 조언한다. 어느 수준부터 장애로 규정하고 DR 체계로 전환해야 하는지 '장애 판단' 기준도 명확하게 수립해야 한다는 지적이다.
안호천기자 hcan@etnews.com