“재해복구(DR)가 왜 어려우냐면, 평상시에 잘 사용하지 않기 때문입니다. DR센터 가동은 단순히 접속만 하면 되는 것이 아니고 보안 요건이나 방화벽 문제, 암호화 키 등 복잡한 문제가 얽혀 있습니다. 갑자기 가동하려면 업데이트 누락 등에서 예상치 못한 문제가 발생하기 마련이죠.”(김기암 토스뱅크 인프라팀 네트워크 엔지니어)
인터넷전문은행 토스뱅크가 금융 전산기술의 핵심 'DR센터'를 최초 공개했다.
올해 많은 금융사가 재난·재해로 인한 블랙아웃 문제에 제대로 대응하지 못하고 소비자 피해를 유발했다. 형식적인 DR센터 운영과 대응경험 부족으로 올바른 조치를 취하지 못한 것이 원인으로 꼽힌다. 반면에 토스뱅크는 최신 설비와 전문화된 기술로 DR 운용 영역에서 정보기술(IT) 기업 위용을 보여줬다는 평가를 받는다. 토스뱅크 DR센터를 찾아 네트워크 엔지니어들에게 '무중단 서비스' 구현의 비결을 물었다.
토스뱅크는 신세계아이앤씨가 운영하는 김포 데이터센터에 입주해 있다. 신세계백화점, 이마트, 스타벅스를 포함해 신세계그룹사들이 이 데이터센터를 함께 쓴다. 서울 구로구에서 운영하던 것을 2019년 김포로 옮기면서 최신 기술과 장비를 대거 도입했다는 장점이 있다.
특히 '무중단 전력 공급 구조'를 자랑하는데, 전력 회선의 인입부터 IT 장비에 이르기까지 완벽한 이중화를 구현한 것이 특징이다. 공사 중 사고 등으로 한 쪽 전력공급회선이 완전히 파괴되더라도 다른 채널로 들어오는 전기로 장비를 구동하는 데 문제가 없다. 외부전력뿐만 아니라 내부에 소재한 무정전전원장치(UPS)와 분전반까지도 이중화 장치가 마련돼 있다.
김기암 토스뱅크 인프라팀 네트워크 엔지니어는 “실제 전기는 항상 일정한 전압으로 공급되지 않기 때문에 전압 차이로 인한 스파크가 되면 정전이 발생해 치명적인 피해를 유발할 수 있다”며 “이런 상황을 대비해 UPS는 정류기 역할도 겸하며 부속품을 교체를 위해 한 쪽 전원을 차단해야 하는 상황에서도 전원 이중화는 매우 중요하다”고 설명했다.
토스뱅크의 무중단 서비스는 IDC의 양자활성화(Active-Active) 구조의 역할도 매우 중요하다. 토스뱅크는 이용자 트래픽을 절반씩 주센터와 DR센터로 흘려보내는데, 한 IDC에서 문제가 발생하더라도 다른 IDC에서 이를 100% 수용할 수 있다는 장점이 있다.
토스뱅크가 주센터와 DR센터를 동일 수준으로 가동할 수 있는 배경에는 '글로벌 서버 로드 밸런싱(GSLB)' 기술이 있다. 이는 서버가 과부하되거나 장애가 발생했을 때, 이를 자동으로 체크해 이용자가 다른 서버로 접속하도록 지원해 서비스 중단을 최소화하는 기술이다.
이용자의 모바일 디바이스에서 같은 토스뱅크 도메인 네임(www로 시작하는 주소)으로 접속을 시도하더라도, 재해상황이나 사용자의 지리적 위치 등에 따라 GSLB가 실제로는 다른 IP 주소로 데이터를 요청하도록 처리한다. 이는 교통사고가 난 도로로 자동차의 진입을 막아 목적지까지 원활하게 이동하도록 돕는 것과 비슷하다.
김기암 엔지니어는 “GSLB는 IT 기업들이 많이 사용하는 기술이지만, 유입되는 트래픽뿐만 아니라 내부에서 처리되는 트래픽에도 GLSB를 구현하는 것이 매우 어렵고 중요하다”며 “프론트엔드뿐만 아니라 내부에 있는 AP서버 및 DB서버까지 센터를 넘나들 수 있는 가용성 경로를 확보해야 하는데, 이는 평상시 DR센터의 꾸준한 가동을 통해 얻게 된 노하우”라고 설명했다.
이형두기자 dudu@etnews.com