서버 관리의 핵심은 서비스의 연속성이다. 즉 서비스 업타임을 높이는 것이다.
“가장 중요한 1순위 서비스는 HA로 구성해 다운타임을 최소화하고 2순위 서비스는 액티브-스탠바이, 그리고 3순위 서비스는 스탠드-얼론(Standalone)으로 구성해서 백업을 수행한다. 만약 3순위 서버군에서 문제가 발생하면 트러블슈팅 후 필요하면 백업본으로 데이터를 복구한다. 복구 작업과 서비스 정상화는 2시간 정도 소요될 수 있다”
빔 소프트웨어는 위와 같은 장애 대응 시나리오 운영을 “옛날 방식”이라고 말한다. 국내 서버 관리자들에게는 잘 알려지지 않았지만 해외에서는 준 표준 (de-facto standard) 처럼 사용하는 백업 기술이 있다. 바로 가상화 기술과 연동하는 것인데 특정 서버에서 장애가 발생하면 해당 백업본을 가상화(VM) 환경과 연동하여 즉시 서비스를 올리는 것이다. 장애는 발생했지만 백업본으로 서비스가 수 분 안에 재개되었기 때문에 장애 해결은 원래 서버에서 여유를 갖고 진행할 수 있다. 가상화와 연동해서 서비스 연속성을 구현할 수 있는 기술이고 여러 백업 솔루션들이 이 기능을 제공함에도 불구하고 국내에서는 모르는 사람들이 많다고 전했다.
HA나 액티브-스탠바이 구성은 1년에 한 번도 발생하기 힘든 장애 가능성 때문에 서버를 한 대 더 준비하고 관련 솔루션 등 2배의 투자가 이루어진다. 특히, 액티브-스탠바이의 경우 실제로 장애가 발생했을 때 서로 싱크가 맞지 않아서 서비스가 재개되지 않는 경우도 종종 있으며 관리의 난이도도 높고 투자 비용도 높다. 특히 랜섬웨어 감염이나 사용자 실수로 인한 삭제는 스탠바이 서버로도 동일하게 복제된다. 따라서 HA와 같은 가용성 솔루션은 하드웨어 장애에 대해서는 유리하지만 운영 환경에서 가장 많이 발생하는 소프트웨어 장애(사이버공격, 사용자 실수)에 대해서는 큰 효과를 보지 못한다.
빔 소프트웨어 관계자는 “서버 장애 시 백업본으로 즉시 서비스를 재개하는 기술은 업계에서 빔 소프트웨어가 가장 먼저 제공하기 시작했다”고 말했다. 백업 데이터의 압축과 중복제거가 적용된 상태에서도 2분 정도면 백업 마스터에서 VM으로 서비스를 올릴 수 있다. X86 서버(윈도우, 리눅스) 및 가상화, 클라우드를 지원하며 오라클, MS SQL, MySQL 등 DB와 어플리케이션의 서비스도 함께 올려준다. 원리는 VMware, Hyper-V, Nutanix AHV 등의 일반적인 하이퍼바이저 가상화 기술과 연동하는 방식이며 OS와 DB를 함께 이미지 백업 받아야 한다.
백업본을 VM으로 가상화 시키는 기술은 위에서 기술한 것 외에도 좋은 활용분야가 많다. 패치나 업그레이드를 진행하기 전에 운영서버의 시점과 가장 근접한 백업본을 VM으로 실행해서 사전 테스트를 해볼 수 있고 장애 상황에서도 다양한 버전의 백업본을 VM으로 실행한 후 원본과 비교분석을 통해 트러블슈팅을 진행할 수 있다. 이렇게 인스턴트 리커버리 기능은 저비용 액티브-스탠바이를 구현할 수 있고 운영서버와 동일한 테스트 서버도 만들수 있기에 활용가치는 훨씬 더 크다.
유닉스와 테이프 백업이 주 목적이었던 백업시장도 가상화 기술의 발전과 함께 새롭고 혁신적인 기능들이 많이 추가되었다. 과거에 백업 솔루션은 서로 큰 차이가 없다는 인식이 많았지만 오늘의 IT 시장에서 다운타임 2분과 2시간의 차이는 정말 크다.
관계자는 “백업을 단순히 보험성격으로 보던 과거 시각에서 서비스 업타임을 향상시켜주고 운영을 도와줄 수 있는 관점에서 새롭게 검토해보는 것도 좋을 것 같다”고 조언했다.
전자신문인터넷 서희원 기자 (shw@etnews.com)
-
서희원 기자기사 더보기