AWS, 美 동부 장애로 통신 대란

아마존웹서비스(AWS) 연례 행사인 리인벤트 2021 현장. AWS 제공
아마존웹서비스(AWS) 연례 행사인 리인벤트 2021 현장. AWS 제공

아마존웹서비스(AWS)가 미국 동부지역에서 장애를 일으켜 넷플릭스, 디즈니플러스, 슬랙 등 주요 서비스가 한때 중단됐다. 온라인에서 열리던 일부 행사는 통신 장애에 따라 이튿날로 연기됐다.

7일(현지시간) 월스트리트저널(WSJ) 등 외신은 웹사이트 장애 분석 전문업체 다운디텍터를 인용, AWS가 이날 미국 동부시간 기준 오전 10시 45분부터 통신 장애를 겪었다고 보도했다. AWS 기반 서비스 장애는 첫 신고 이후 불과 30분 만에 1만1300건이 접수됐으며, 뉴욕·워싱턴DC·시카고에서 집중 보고됐다.

이번 장애로 스트리밍 서비스 '프라임 뮤직', 영상회의 서비스 '차임', 홈보안 시스템 '링' 등 AWS 자체 서비스 상당수가 중단됐다. AWS 클라우드를 도입한 '티켓마스터' '디즈니플러스' '넷플릭스' 등 서드파티 애플리케이션(앱)도 장애를 겪었다. 장애가 이어지는 동안 미국 서부의 아마존 배송과 상거래 시스템도 전면 중단됐다. WSJ 등 언론사도 기사 송출이 지연되는 등 영향을 받았다. UBS의 글로벌 TMT 콘퍼런스에서 진행하고 있던 컴캐스트와 알티스USA의 웹캐스트 발표는 장애에 따라 중단됐다. 차터 커뮤니케이션은 발표 일정을 이튿날로 미뤄야만 했다.

AWS는 이날 오전 11시20분부터 미국 동부 1지역 장애 및 콘솔 문제를 조사했다. 미국 동부 1지역은 북부 버지니아 지역에 호스팅 서버를 두고 보스턴·휴스턴·시카고 지역까지 서비스를 담당한다. AWS는 “문제의 근본 원인을 알아냈다”면서 “복구를 위해 최선을 다하고 있다”고 설명했다. 복구 조치 가운데에는 AWS 이용자가 타 지역 콘솔에 접근할 수 있도록 하는 것도 포함됐다. 콘솔은 이용자가 자신의 AWS 클라우드 서비스를 관리할 수 있도록 제공하는 웹 인터페이스다. 이날 오후 5시가 되자 장애 신고는 3500건 아래로 떨어졌으며, 조치는 오후 6시30분에 완료됐다.

AWS 장애로 일부 고객 피해와 불만이 속출했다. 온라인 투자 플랫폼 '퍼블릭닷컴'의 한 이용자는 WSJ에 “이번 장애로 주식을 제때 팔지 못해 거의 3000달러 손해를 봤다”면서 “같은 장애가 벌써 두번째 발생했다. (AWS가) 왜 백업 플랜을 마련하지 않는지 화가 난다”고 토로했다.

클라우드 장애는 이전에도 발생했지만 점점 더 많은 기업이 클라우드로 이전함에 따라 더욱 이목을 끌게 됐다고 WSJ는 분석했다. WSJ는 시드 나그 가트너 부사장을 인용해 “클라우드 기반의 대규모 장애는 매 분기마다 발생하고 있다”고 했다. 이어 “AWS는 클라우드 인프라 시장의 약 90%를 차지한다”면서 “일부 기업이 위험을 줄이기 위해 멀티 클라우드를 도입하지만 클라우드 플랫폼이 소수인 만큼 클라우드 기반의 장애는 피할 수 없는 일”이라고 내다봤다.

AWS 장애와 관련해 이용자가 취할 수 있는 조치는 딱히 없다. 슈만 고즈마이엄더 F5네트웍스 글로벌 인공지능 총괄은 WSJ에 “AWS 인프라가 웹사이트나 앱의 '몸통' 역할을 한다면 AWS 관리 콘솔은 '뇌' 역할을 한다”면서 “(향후 장애에 대비해) 이를 추가 모니터링 대상으로 삼고 어떻게 튼튼한 메커니즘을 만들지 고민해야 한다”고 조언했다.

AWS 클라우드 영향력이 커지면서 장애 발생은 최근 수년간 골치 아픈 문제로 지적돼 왔다. 지난해 11월 미국 동부지역에서 AWS 장애가 발생, 타깃과 어도비 등 대형 서비스가 줄줄이 먹통 됐다. 이보다 앞서 2018년에는 AWS 서울 지역이 장애를 일으켜 배달의민족·쿠팡·야놀자 등과 업비트·코인원 등 암호화폐 거래소 등 주요 서비스가 일제히 중단되는 사고가 있었다.

오다인기자 ohdain@etnews.com