며칠 전 고객과 회의하면서 과거에 겪은 경험담을 나눴다. 폐기하는 시스템 전원을 분리하다가 회사 메인 시스템에 연결된 분전반이 차단된 것을 아무도 몰랐다. 메인 시스템 작동이 중단된 것을 최고 경영진까지 알게 되면서 내부로 많은 어려움을 겪었다. 다행히 잘 해결돼 웃으면서 이야기할 수 있는 일화가 됐다. 당시 팀 책임자로서 이 고객이 얼마나 진땀을 흘렸는지 묻지 않아도 알 수 있다.모바일을 포함한 온라인 비즈니스 급증, 글로벌 시장으로의 비즈니스 영역 확대, 기업간거래(B2B)와 기업·소비자간거래(B2C) 경계 붕괴 등 시장과 기업 변화가 일어난다. 이는 24시간 365일 서비스하는 정보기술(IT) 지원으로 이뤄진다. 기업 매출, 성장, 경쟁 등 비즈니스의 근간이 IT 시스템에서 이뤄진다. IT 무중단 운영 요건이 커질수록 IT 시스템 중단에 따른 위기도 증대한다.
예기치 못한 시스템 중단이 기업 비즈니스와 명성에 얼마나 심각한 문제를 야기하는지 여러 국내외 사례로 확인된다. 한 예로 지난해 8월 미국을 대표하는 한 항공사가 시스템 중단을 겪었다. 시스템 중단은 몇 시간 만에 복구됐지만 항공기, 승객, 승무원의 뒤엉킨 스케줄을 관리하느라 며칠 동안 혼란 상태를 치렀다.
결국 여름휴가 기간에 수백편의 항공기가 취소되거나 지연됐다. 항공사는 수백만달러 손실을 입었다. 무엇보다 고객에게 오랫동안 쌓아 온 명성과 신뢰의 많은 부분을 잃게 됐다.
IT 시스템 중단은 지진·화재·홍수 등 천재지변, 관리자와 운영자 실수, 해킹과 보안 사고 등 다양한 이유로 발생한다. 최근 국내에서는 잦은 지진으로 시스템 중단 리스크가 커졌다. 모든 문제를 사전에 방지할 수는 없다. 재해 원인은 막을 수 없어도 재해로 인한 피해는 최소화하는 준비가 기업 위기 대응 전략에서 중요한 부분이다. 어떤 이유로든 시스템 중단에 따른 비즈니스 영향을 최소화해야 한다. 빠르게 원상태로 복구하기 위해 기업에 요구되는 것은 잘 구성된 재해복구 시스템과 대처 방안 매뉴얼 수립이다. 위기 때 적절하게 가동하기 위한 평소의 실전 테스트를 포함한 통합 위기 대응 전략이 필요하다.
재해복구 시스템은 금융과 대형 제조기업 중심으로 구축됐다. 중견·중소기업은 인력·시설의 한계로 검토조차 하지 않았다. 지난해 9월 경주에서 발생한 리히터 규모 5.1의 지진과 여진 소식이 계속 있었다. 국내 많은 기업의 최고 경영진에게 천재지변에 따른 IT 시스템 중단이 더 이상 일본이나 중국처럼 남의 나라 이야기가 아니라는 것을 알게 했다. 한국 기업에도 심각한 재앙을 초래한다는 위기의식이 들게 했다. 실제로 내가 맡은 IBM 인프라스트럭처 서비스 부서는 고객으로부터 경주 지진 이후 재해복구시스템 구축에 관해 많은 질문을 받는다.
잠재된 위기 예방을 위해 큰 비용을 지불하는 기업은 많지 않다. 최근 이런 고민을 하고 있는 고객을 위해 다양한 재해복구 서비스 옵션이 제공된다.
클라우드 기반 재해 복구 서비스, 자원 공유 기반 재해 복구 서비스 등이 있다. 월비용 방식 대금 지불 등 기업 규모와 요구 사항을 고려한 맞춤형 서비스가 여기에 속한다. 재해 복구 시스템을 갖춘 기업 가운데 시스템이 실제 상황에서 어떻게 가동되는지 테스트해 보지 않은 경우도 많다. 이런 일을 방지하기 위해 평소 재해 복구 관련 전문 기업의 도움을 받는 것도 고려해 봐야 한다.
과거 IT 시스템의 건물 내 가용성 구축은 필수 요건이었다. 그러나 원격지 재해복구시스템 구축은 24시간 IT 시스템 가동과 서비스로 치열한 경쟁에서 생존하고 성장하는 기업에 필수 요건이다. IT가 비즈니스 근간인 시대, 준비하지 않은 위기가 더 큰 재앙이 되는 시대에 살고 있기 때문이다.
유형림 한국IBM 글로벌테크놀러지서비스 상무 hyung@kr.ibm.com