먹통사태 후 1년 카카오, 안정성 확보 노력·강화

카카오가 지난해 10월 15일 판교 SK C&C 데이터센터 화재로 인한 서비스 장애 발생 이후 서비스 안정성 확보를 위해 총력을 기울이고 있다고 16일 밝혔다. 서비스 장애 원인을 분석하고 공표한 재발방지대책을 모두 실행하고 안정적인 서비스 환경을 조성하기 위해 1년간 적극 노력했다.

카카오의 데이터센터 안산. [자료:카카오]
카카오의 데이터센터 안산. [자료:카카오]

카카오는 이상 징후를 발견하고 대처하기 위한 다양한 모니터링 시스템, 장애를 빠르게 극복하고 복구하기 위한 체계 확립, 안정적 서비스를 위한 기술과 장비 고도화, 정보보호 투자 확대, 데이터센터 재난 대응 설계 완벽 적용, 신속한 대응을 위한 모의 훈련 등 안정성 확보를 위한 노력을 지속하고 있다.

서비스 안정성 위한 시스템 구축으로 우선 모니터링 시스템을 구축하고 실시간 점검 및 장애 확산을 최소화했다. 카카오톡을 지속적으로 개선하고 서비스 안정성을 확보하기 위해 실시간 서비스 대시보드(모니터링 도구)를 활용해 복합적인 모니터링을 진행하고 있다.

카카오는 기존 비상대응조직을 강화해 CEO를 위원장으로 하는 비상대책위원회와 함께 실무 컨트롤타워 역할을 하는 업무연속성계획(BCP) 종합상황실을 별도로 구성하는 등 재난 발생시 카카오 전 조직의 역할을 구체적으로 정의하고 거버넌스를 강화했다.

투자도 늘렸다. 카카오의 정보보호투자액은 2023년 기준 209억원 이상으로 전년 대비 약 48.8% 증가했다. 정보보호전담 인력 또한 61명에서 103명으로 전년대비 68.9% 늘렸다. 카카오는 정보보호 관리체계에 대한 국제 표준 검증(ISO 27001) 등 다양한 기술 인증을 획득하며 보안 부문 역량도 인정받았다. 데이터센터 장애가 발생할 때를 대비한 기술적 조치도 강화했다. 클라우드와 운영도구, 데이터센터를 모두 다중화해 장애 발생 시 장애 복구 조치를 즉각 실행할 수 있는 환경을 구축한 것이 특징이다.

기술적 조치와 재난 대응 설계를 기반으로 내년 1분기부터 첫 자체 데이터센터인 '카카오 데이터센터 안산'을 본격 운영한다. 최대 12만대의 서버를 운영할 수 있는 하이퍼스케일 데이터센터로, 24시간 무중단 운영을 위한 무정전 전력망을 갖췄다. 전력·냉방·통신 등 주요 인프라를 이중화해 비상시 원활한 전력 공급이 가능한 백업도 구축했다.

또 화재·침수·해일·강풍·지진 등 재난 재해 설비를 완비했다. 화재 시 데이터 보호를 위해 전산동 전체에 친환경 소화가스 적용하고 비상상황 시 신속하며 효율적인 소방 시스템을 즉시 가동한다. UPS실과 배터리실은 방화 격벽으로 각각 분리 시공했다. 배터리실에 화재가 발생하더라도 나머지 시설 작동에 영향을 주지 않게 설계했다.

홍은택 카카오 대표는 데이터센터 안산 준공식에서 “어떠한 재난과 사고에도 완벽히 대응하는 카카오 데이터센터는 안정적인 서비스로 모두의 당연한 일상을 지키겠다는 카카오의 다짐과 약속의 중요한 초석이 될 것”이라고 말했다.

한편, 카카오는 지난 상반기 1015 화재로 인한 서비스 장애 피해 지원 절차를 마무리했다. 카카오는 협의체에서 마련한 방안을 토대로 실질적 피해를 입은 소상공인들이 빠르고 편리하게 지원금을 받을 수 있도록 노력했으며, 총 275억원 규모의 보상을 진행했다.

함봉균 기자 hbkone@etnews.com