SK텔레콤의 지난 주 이동통신 불통 사태로 통신업계에 ‘망 관리 리스크’가 현안으로 급부상했다. 트래픽이 폭주하며 사소한 망장애로도 ‘수시간 통화 불능’ ‘수백억원대 피해’가 현실화될 수 있음을 이번 사태가 여실히 보여줬기 때문이다. 특히 일반인의 스마트폰 의존도가 높아지면서 잠깐의 ‘통신 블랙아웃’이 천문학적인 보상 문제로 직결된다는 점에서 각별한 주의가 요구된다. 통신업계가 이번 사태를 계기로 시스템 이중화, 시스템 분산 운영 등 망 관리 고도화에 역량을 다시 투입해야 한다는 지적이다.
SK텔레콤에 따르면 지난 20일 오후 발생한 통신 장애는 가입자확인모듈(HLR) 에러 때문인 것으로 확인됐다. 휴대폰 가입자를 찾는 장비에 문제가 생긴 것이다.
이종봉 SK텔레콤 네트워크 부문장은 “저녁 6시께 발생한 장애를 24분만에 복구했지만 (장애시간 동안) 쌓였던 트래픽이 폭증했다”며 “2차 장애가 발생하지 않도록 순차적으로 과부하를 복구하는 과정에서 다소 시간이 걸렸다”고 설명했다.
복구는 단시간내 마쳤지만 쌓인 트래픽이 폭주하며 정상 서비스까지 5시간 이상 걸렸다는 설명이다.
SK텔레콤 관계자는 “통화가 안됐던 560만 고객을 주변으로 수용범위 이상으로 트래픽이 쌓여 시스템 복구 후에도 이를 제어해야 했다”며 “장애가 이용량이 많은 저녁 시간에 발생하다보니 여파가 커진 것”이라고 설명했다.
미래창조과학부에 따르면 국내 모바일 트래픽은 2009년 400테라바이트(TB)에서 2013년 8월 7만8684TB로 197배 늘었다. 2015년에는 2011년과 비교해 5배, 2020년에는 10배까지 증가할 것으로 예상된다.
표준 매뉴얼로는 대응하기 어려운 상황이 종종 발생할 것이라는 예측도 나왔다.
이번 SK텔레콤 사고도 HLR 장비 이중화 시스템이 제대로 작동하지 않으며 피해가 커졌다.
장비 에러시 이웃한 장치가 자동으로 해당 업무를 넘겨받는 시스템이 작동 하지 않아 수동으로 연결했다. SK텔레콤은 주말까지도 이중화 장치가 작동하지 않은 원인을 파악 중이다.
통신사 한 엔지니어는 “통상적인 통신사 위기관리 메뉴얼상 가입자확인모듈(HLR) 오류라면 2시간 이내 완전히 복구되는 것이 정상”이라며 “20분만에 복구했다고 하지만 완전한 회복까지 6시간이 걸린 것을 감안하면 비정상적인 상황이 계속 이어진 것으로 보인다”고 말했다.
사고에 대비해 위험 분산에 투자해야 한다는 지적도 나왔다. SK텔레콤은 HLR 장비를 분당, 대전 등 3곳에서 운영하는데 장비 하나 당 관리하는 가입자가 많다보니 사고 발생시 피해가 커질 수 있다는 것이다.
SK텔레콤 관계자는 “가입자 관련 장비를 대용량으로 구축해 한꺼번에 관리 하는 것과 소용량으로 분산시키는 것은 운영상 장단점이 있다”면서도 “국사별 시스템이 물리적으로 분리 운영돼 지역적 분리 배치와 마찬가지 구조”라고 설명했다.
SK텔레콤은 장비보강, 안전장치 강화 등 시스템을 보완하겠다는 입장을 내놨다.
하성민 SK텔레콤 사장은 “이번 사건을 계기로 더 나은 통화품질을 제공할 수 있도록 해당 장비에 대한 보강작업을 진행할 것”이라며 “향후 장애감지시스템 확대 개편과 시스템 오류에 대비한 안전장치 강화 등 재발 방지를 위한 모든 노력을 기울이겠다”고 강조했다.
통신장비 업계는 단순 용량 확대로는 이 같은 리스크를 해결할 수 없을 것으로 예측했다. 통신장비 업체 한 사장은 “유·무선 네트워크가 IP화 되면서 망이 점점 단순화되고 관리하기 편하게 변하고 있는 것이 사실”이라며 “하지만 트래픽 폭증과 장비 디지털화가 진행되면서 예측하지 못한 사태로 인한 위험도는 과거와 비교하기 어려울 정도로 커졌다”고 강조했다. 장애 발생 원인이 다양해지면서 돌발 상황이 자주 발생할 것이란 경고다.
한편 KT와 LG유플러스도 이번 사건을 계기로 망 관리 상황을 일제히 점검하기로 하는 등 망 리스크 관리에 돌입했다.
김시소기자 siso@etnews.com
-
김시소 기자기사 더보기