화재 참사 카카오페이, 재해복구 시스템·매뉴얼 업계 최고 수준 강화

2022년 10월 판교 데이터센터 화재로 인해 카카오의 주요 서비스에 장애가 발생한 가운데 이에 대한 경찰과 국립과학수사연구원, 소방당국, 전기안전공사 등 유관 기관의 합동수사가 진행됐다. 17일 경기 성남시 SK(주) C&C 데이터센터 화재 현장에서 관계자들이 합동 감식을 위해 이동하고 있다. 김민수기자 mskim@etnews.com
2022년 10월 판교 데이터센터 화재로 인해 카카오의 주요 서비스에 장애가 발생한 가운데 이에 대한 경찰과 국립과학수사연구원, 소방당국, 전기안전공사 등 유관 기관의 합동수사가 진행됐다. 17일 경기 성남시 SK(주) C&C 데이터센터 화재 현장에서 관계자들이 합동 감식을 위해 이동하고 있다. 김민수기자 mskim@etnews.com

카카오페이가 핀테크 업계 최고 수준 재해복구 시스템을 갖춘다. 지난해 화재로 인해 초유의 서비스 지연 사태를 겪은 후 재발방지를 위해 이중화 시스템과 사고방지 매뉴얼을 강화했다.

카카오페이에 따르면 이 회사는 올 상반기 자동전환(HA) 시스템 고도화를 1차 마무리했다. HA는 사고나 장애 발생 시 자동으로 관련 데이터베이스와 서비스를 백업 서버로 옮기는 인프라다. 이 시스템을 업계 최고 수준으로 재정비하고 연내 추가 작업을 통해 완성도를 높일 계획이다.

카카오페이 관계자는 “핀테크 업계 최고 수준으로 모든 서비스 관련 시스템 이중화를 갖췄다”면서 “특히 데이터베이스 자동 전환 시스템 고도화 작업은 최근 1차 고도화 작업을 마무리 짓고 추가 작업을 진행 중으로, 사고 발생 시 자동 전환이 최대한 빠르게 이뤄질 수 있도록 개선해 나갈 것”이라고 말했다.

앞서 카카오페이는 지난해 10월 SK C&C 판교 데이터센터에서 화재로 약 이틀에 걸쳐 서비스 장애를 겪었다. 카카오와 카카오페이 서버 전체에 전원 공급이 차단되면서 결제를 비롯해 계정, 인증, 알림 등 서비스를 완전히 복구하는데 어려움을 겪었다. 카카오페이 따르면 당시 장애로 약 745건 피해를 접수했다.

카카오페이는 사후 조사를 통해 시스템 이중화에 미흡한 점이 있었다고 결론을 내렸다. 데이터와 서비스 모두 이중화 처리를 했지만, 전체 시스템에서 이중화 전환을 돕는 일부 관리 목적 프로그램이 동작하지 않으며 이원화 된 데이터센터로 서비스 전환이 원활하게 이루어지지 않았다는 것이다. 결국 수동 전환을 통해 대응하느라 복구에 시간이 많이 걸렸다는 분석이다.

재해 복구 매뉴얼도 대폭 강화한다. 우선 외부 전문가 자문을 받아 기존 재해복구 매뉴얼의 부족한 점을 진단할 계획이다. 또 재해상황을 가정한 복구 훈련을 주기적으로 실시한다는 방침도 세웠다.

카카오페이와 제휴한 외부 솔루션과 서비스도 다시 점검한다. 지난해 화재 당시 제휴 서비스 복구에도 상당한 시간이 걸린만큼 제휴 현황을 분석하고 연결성을 보완하는 작업을 검토할 계획이다.

카카오페이는 “특히 중장기 관점에서 중요 정보 알림을 위해 현재 카카오톡 알림을 활용하는 방식에서 벗어나는 것을 모색하고 있다”고 밝혔다. 카카오페이와 카카오톡 장애가 동시에 발생할 경우 우회수단을 통해 대응하겠다는 것이다.

김시소 기자 siso@etnews.com