네이버 다운이라는 달갑지 않은 주제가 또다시 도마에 올랐다. 지난 9일 일어난 서비스 장애는 5시간 40분이나 지나도록 해결이 안 됐다. 이 때문에 네이버 서비스 역대 최고 장애 시간이라는 불명예를 기록했다. 잘잘못을 가리는 데 초점을 맞추다 보니 이번 사건에서 한 가지 중요한 점이 간과되고 있는 듯하다. 바로 장애 발생 당시 NHN과 한국IBM의 초동 대처가 어떠했나 하는 점이다.
전문가들은 장애가 완전 ‘제로’인 것은 사실상 불가능하다고 말한다. 시스템 설계를 아무리 이중화, 삼중화하더라도 100% 무중단 운용을 보장하는 경우는 거의 없다. IT 도구 간 호환 문제로 예기치 못한 오류가 나타날 수도 있다.
또 관리자의 크고 작은 실수도 ‘신이 아닌 이상’ 없을 수가 없다. 이 때문에 장애 발생을 미연에 막는 것도 중요하지만, 장애가 일어났을 때 이를 빨리 효율적으로 대처하는 것이 무엇보다 중요하다.
그런데 이번 장애에 대해서 NHN과 한국IBM의 초동 대처는 명성(?)에 걸맞지 못했다는 느낌이다. 장애 발생에 대비한 행동 매뉴얼은 있는지, 장애 현상에 따라 재해 복구 시스템은 제대로 가동했는지, 서로 신뢰하며 복구 노력에 최선을 다했는지 등이 모두 의심스럽다. 초기 대처를 제대로 했는데도 장애시간이 5시간 40분이나 됐다면 정말 문제다.
시스템뿐 아니라 사용자에 대한 배려 차원에서도 초동대처가 미흡했다. 서비스 장애 시 많은 네티즌은 내 PC 자체가 오류인지, 언제쯤이면 장애가 해소될지 답답하기만 하다. 그러나 NHN과 한국IBM은 장애 사실을 재빠르게 네티즌에게 공지하려는 초동 대처가 없었다.
흔히 수사에서 가장 중요한 것이 초동 수사라고 한다. 초동 수사 기회를 놓쳐버리면 범죄자는 증거를 인멸하고 도주 경로를 마련한다. 이후 수십명, 수천명을 동원해 수사해도 사건이 미궁에 빠져버리는 사례가 많다.
IT는 이제 도구가 아니라 공기와 같은 존재가 됐다. 이런 상황에서 IT 장애에 대한 초동 대처가 부족하면 그로 인한 피해는 눈덩이처럼 불어난다. 어차피 100% 무중단 시스템 운용은 그 누구도 장담할 수 없다. 그렇다면 초동 대처만이라도 잘했다는 소리를 두 회사는 들어야 하지 않았을까.
컴퓨터산업부·류현정기자@전자신문, dreamshot@