‘피할 수 없다면 대비하라’ 100% 복구에 도전하는 재해복구 전략

지진, 홍수와 같은 자연 재해, 그리고 정전, 화재와 같은 사회적 재해 등 데이터센터에 발생하는 다양한 재해로부터 비즈니스 연속성과 데이터를 보호하기 위한 재해복구(DR) 솔루션의 중요성이 어느 때보다도 강조되고 있다.

데이터 인프라에 발생하는 재해는 기업의 자산 손실과 매출 감소를 넘어 서비스 사용자 또는 사회 전반으로 불편과 혼란을 가져온다. 완벽한 IT 시스템이라 해도 재해로 인한 서비스 중단 위험은 항상 존재한다. 따라서 모든 기업은 핵심 인프라와 비즈니스에 악영향을 미치는 재해 상황에 대처하기 위한 일련의 절차와 규칙, 즉 재해복구 계획을 마련해야 한다.

‘RPO 제로’ 달성을 위한 데이터 동기화 방법
재해가 발생했을 때 가장 기준이 되는 것은 복구 목표 시간(Recovery Time Objective, RTO)으로, 인프라 및 서비스가 복구되고 정상화될 때까지 걸리는 시간을 말한다. 금융기관을 예를 들면 주요 핵심 업무에 대한 복구 목표 시간은 3시간 이내로 규정하고 있다.

RTO에 영향을 미치는 중요 요인은 복구 목표 시점(Recovery Point Object, RPO)이다. RPO는 기업이 재해 발생 후 정상 운영을 재개하기 위한 데이터 복구 시점을 의미하며, 서비스 연속성 측면에서 손실을 감내할 수 있는 데이터의 양과 같은 의미로 볼 수 있다.

즉, RPO가 길어지면 데이터 복구 시간도 비례해 늘어나며 RTO에도 영향을 미친다. 따라서 많은 기업이 중요도 및 서비스 영향도가 높은 핵심 업무에 대해서는 ‘RPO 제로’를 목표로 시스템을 구축한다.

RPO 제로에 가장 이상적인 데이터 복제 방식은 원본과 복제본 간 100% 동기화를 보장하는 동기식(Sync) 방식이다. 그러나 원본과 복제본에 쓰기가 완료될 때까지 서버 애플리케이션이 대기하기 때문에 원본과 복제본의 물리적 거리에 따라 애플리케이션 응답 지연이 발생할 수 있다.

이를 개선한 것이 비동기식(Async) 방식이다. 주 스토리지 저장과 별개로, 백그라운드에서 데이터를 원격지 복제하는 방식이다. 애플리케이션 I/O 요청 시 복제 스토리지가 응답할 때까지 기다릴 필요가 없으므로 원격 스토리지의 거리 제한 문제가 해소된다.

비동기식 방식의 경우 인터벌 배치 복제 방식과 실시간 전송 방식으로 나누어진다. 인터벌 배치 복제 방식을 사용할 경우 수초에서 10분 이상의 RPO와 데이터 손실 가능성이 있다. 실시간 전송 방식의 경우 RPO를 최소화하고 100Km 이상의 원격 복제 환경에서도 응답 성능을 보장할 수 있어 국내 주요 기업과 정부 기관에서 다양하게 활용되고 있다.

최근에 새롭게 주목받고 있는 액티브-액티브 미러링(Active-Active Mirroring) 방식은 원본과 복제본을 구분하지 않고 100% 운영 자원으로 2대의 스토리지에 동시 읽기/쓰기를 지원한다. 액티브-액티브 미러링은 RPO=0라는 미션을 충족하면서 한 스토리지 장비에 장애가 발생해도 RTO=0의 무중단 서비스를 제공할 수 있어 가장 이상적인 재해복구 모델인 액티브-액티브 데이터센터 구축의 기본 기술로 활용된다.

3데이터센터 복제 방식 적용한 재해 시나리오
보다 안정적인 재해복구를 위해 동기식과 비동기식을 혼합하는 하이브리드 복제 방식도 가능하다. 하이브리드 복제는 동시에 3곳의 데이터센터에서 데이터를 동기화한다. 근거리는 동기식으로 이중화하고, 원거리는 비동기식으로 운영하는 제3의 데이터센터를 두어 데이터를 3개로 복제한다.

3데이터센터 구성 중 고전적인 방식은 동기식과 비동기식을 결합한 ‘액티브-스탠바이’로, 오래 전부터 사용되어 왔다. 최근에는 액티브-액티브 미러링과 비동기식을 혼합한 구성(Active-Active Mirroring+Async)이 증가하고 있다.

3데이터센터 구성의 핵심은 3개의 동기화 복제본 중 어느 하나에 장애가 발생해도 나머지 2개의 데이터 변동분만 복제해 빠르게 동기화를 보장하는 것이다. 3데이터센터 구성에서는 한 스토리지 장비에 장애가 발생해도 나머지 2대의 스토리지를 통해 데이터 동기화가 무중단 운영됨으로써 재해에 더욱 단단하게 대비할 수 있다.

데이터뿐 아니라 인프라까지 포함해야 RTO=0
기업은 재해복구 시스템 운영 방식을 결정하기 전 시스템 복구 시간, 복구 범위, 비즈니스 영향, 업무 중요도를 종합적으로 고려할 필요가 있다. 모든 서비스가 재해 이전 정상 수준으로 돌아가려면 데이터뿐 아니라 애플리케이션, 서버, 네트워크 등 다른 환경 역시 복구돼야 한다.

데이터 복구 대책을 세운 후에는 시스템 복구에도 대비해야 한다. 비용과 난이도가 높지만 기업의 핵심 업무에는 데이터를 실시간 이중화로 복제해 재해가 발생해도 즉시 대체나 전환이 가능한 미러 사이트 또는 핫 사이트급의 복구 정책을 적용해야 한다.

재해 복구를 위해 필요한 백업 센터
재해 복구를 위해 필요한 백업 센터

미러 사이트와 핫 사이트는 서버부터 스토리지까지 필요 인프라가 모두 주 데이터센터와 동일하고, 데이터 동기화는 RPO=0를 목표로 하는 점이 동일하다. 그러나 미러 사이트는 액티브-액티브 데이터 미러링 기술, 서버∙네트워크 사이트 간 부하 분산이나 자동 페일오버를 지원해 서비스의 중단을 최소화하는 더욱 이상적인 구조다.

전문 업체의 검증된 경험과 기술 활용해야
오늘날 데이터센터는 많은 어려움을 해결하면서 지속적으로 변화하고 있다. 전통적인 액티브-스탠바이 구성을 넘어, RTO를 최소한으로 줄이면서 한정된 예산 안에서 보유 자원을 최대한 끌어올리려는 것이 최근 데이터센터의 트렌드다. IT 인프라 기술이 발전하면서 액티브-액티브 데이터센터 구현의 장점도 커지고 있다.

특히 최근 발생한 데이터센터 문제로 전통적인 재해복구 운영과 재해복구 센터 모두를 액티브로 운영하는 방식이 주목받고 있다. 이제 IT 전략은 기업에 큰 리스크인 다운타임을 최소화하면서 성숙한 기술을 바탕으로 모든 IT 자원의 활용을 극대화하는 방향으로 움직이고 있다.

환경과 요구 조건이 복잡해질수록 모든 재해복구 포트폴리오를 바탕으로 오랜 경험과 구축 사례를 보유한 전문 업체의 검증된 기술을 활용하는 것이 기업에게는 현명한 결정이다. 효성인포메이션시스템은 20년 이상 재해복구 경험을 쌓으면서 업계 최초 실시간 비동기 구현, 세계 최장 거리 재해복구센터 구축, 업계 최다 액티브-액티브 스토리지 미러링 구축 등 공공∙금융∙제조∙통신 분야에서 90건 이상의 국내 최다 구축 사례를 보유하고 있다.

‘피할 수 없다면 대비하라’ 100% 복구에 도전하는 재해복구 전략

효성인포메이션시스템 SA팀 박용진 부장 기고

전자신문인터넷 유은정 기자 (judy6956@etnews.com)