[이슈플러스]클라우드 급성장에 '안전불감증' 노출…장애 예방하려면 구조적 문제 해결해야

세계를 강타한 마이크로소프트(MS) 클라우드 장애와 정보기술(IT) 시스템 셧다운은 급성장한 클라우드 시장 이면에 숨은 '성과 우선주의'와 '안전불감증'이 원인으로 지목된다.

단순한 보안 소프트웨어(SW) 업데이트가 세계적 문제를 일으킨 것은 사전 테스트와 같은 충분한 절차를 제대로 지키지 않은 기본적 이유 등에 기인한다.

전문가들은 MS와 같은 국내외 클라우드 서비스 제공사(CSP)들이 같은 문제에 직면하지 않기 위해서는 △컴플라이언스(내부통제) 강화 △멀티 클라우드 도입 등 구조적 문제 해결이 우선이라고 입을 모은다.

◇성과 우선주의·안전불감증이 문제 키웠다

지난 19일(현지시간) 발생한 MS 클라우드 장애와 세계 IT 시스템 셧다운은 MS와 협력 관계인 크라우드스트라이크의 기업용 보안 제품 '팔콘' 센서 SW 업데이트 과정에서 비롯됐다.

팔콘 센서와 관련된 윈도 운용체계(OS) 호스트가 충돌을 일으켜 블루스크린 오류(BSOD), 이른 바 '먹통 현상'이 발생했다.

이 여파로 MS 클라우드 서비스 '애저'를 비롯해서 아마존웹서비스(AWS), 구글 클라우드(GCP) 등 팔콘 제품을 도입한 여러 시스템에서 동시다발로 먹통 현상이 불거졌다.

이 중 MS 애저 이용자 피해가 유독 컸던 것은 팔콘 제품 업데이트가 미국 애저 리전(데이터센터)에서 먼저 이뤄진 것이 원인으로 추정된다. 문제 발생 직후 추가 업데이트가 중단됐고, 상대적으로 애저 이용자 피해가 집중됐다는 것이다.

전문가들은 보안 SW 업데이트가 'IT 대란'으로 이어진 데 이해하기 어렵다면서 클라우드 시장 급성장에 따른 성과 우선주의와 프로세스 미준수가 주된 원인이라고 지적했다.

글로벌 클라우드 컴퓨팅 시장 점유율 (자료:시너지리서치그룹)
글로벌 클라우드 컴퓨팅 시장 점유율 (자료:시너지리서치그룹)

시너지리서치그룹에 따르면 2023년 4분기 기준 글로벌 클라우드 컴퓨팅 시장 점유율은 아마존웹서비스(AWS)가 31%로 1위, MS가 24%로 2위를 차지했다.

시장조사업체 IDC 기준 2023년 글로벌 '퍼블릭 클라우드' 시장 총 매출액은 6692억달러(약 931조2000억원)로 전년도 5583억달러(약 777조원) 대비 약 20% 급성장했다. 특히 2위 MS는 2022년과 2023년만 놓고 볼 때 각각 16.5%, 16.8% 시장 점유율을 기록, AWS를 3~4%포인트(P) 이상 앞섰다.

세계 퍼블릭 시장 현황 (자료:IDC)
세계 퍼블릭 시장 현황 (자료:IDC)

한 글로벌 클라우드 CSP사 클라우드 테크 부문 임원은 “보안 패치 작업이 프로덕션 전체에 영향을 미친 것은 납득하기 어렵다”면서 “이번의 경우에는 크라우드스트라이크 측에서 단순 작업으로 판단해서 사전 테스트 과정을 소홀히 한 것 아닌가 의구심이 든다”라고 말했다.

한 글로벌 보안업체 한국지사 대표는 “글로벌 CSP사들은 클라우드 시장이 급성장하는 데 맞춰 수많은 분야 기업과 파트너십을 체결하고 협력 관계를 유지하고 있다”면서 “어떤 문제가 불거졌을 때 어떤 협력사의 솔루션, SW 등이 문제를 일으키는지 파악하는 초동 대응에 시간이 걸릴 수밖에 없고, 그사이 피해가 확산할 수 있다”라고 말했다.

◇컴플라이언스 강화·멀티 클라우드 도입 등 검토해야

과학기술정보통신부와 한국인터넷진흥원(KISA)에 따르면 IT 대란 영향을 받은 국내 기업은 20일 기준 10곳에 불과한 것으로 나타났다.

상당수 국내 기업 등은 보안을 이유로 자체 서버나 국산 클라우드 보안 제품을 사용, MS 의존도가 상대적으로 낮아 피해가 적었던 것으로 보인다.

그럼에도 전문가들은 IT 대란이 언제라도 발생할 수 있는 만큼 컴플라이언스 강화와 멀티 클라우드 도입 등 안전 장치를 두는 것이 중요하다고 지적한다.

국내 한 MSP 보안담당 부사장은 “(IT서비스 업체들이) 일반적으로 자체 개발한 애플리케이션(앱) 등 점검은 철저하지만, 구매해 사용하는 제품(상용 SW)이나 무료로 가져다 쓰는 제품(오픈소스 SW)에 대한 코드 검증에는 취약하다”면서 “SW 공급망이나 제3자리스크매니지먼트(TPRM) 관점에서 앱을 제대로 검증하고 리스크를 최소화하기 위한 노력이 이뤄져야 한다”고 말했다.

이어 “다음에는 혹시 발생할지 모르는 위험 분산을 위해 멀티 클라우드 도입도 검토해야 하고, 단순히 여러 클라우드를 도입하는 관점이 아니라 중요 시스템의 경우 복수 클라우드를 사용하는 방식을 고민해야 한다”면서 “재해복구(DR) 시스템도 업무 연속성 확보 관점에서 시급히 도입해야 한다”고 덧붙였다.

일부에선 클라우드 서비스수준협약(SLA)을 재점검할 필요성도 크다는 목소리도 있다. SLA는 서비스 제공자가 제공해야 할 서비스 수준과 이용자가 기대할 수 있는 서비스 품질을 명시한다. 서비스 이용 책임과 보상 기준이 된다.

국내 한 클라우드기업 대표는 “사고가 발생하면, 책임 여부를 놓고 고객과 클라우드 기업 간에 다툼이 불가피하다”라면서 “클라우드 도입 기업들은 SLA가 제대로 작성됐는지 점검하는 것이 중요하다”고 말했다.

한 글로벌 클라우드 CSP사 임원은 “사실 SLA에 명시한 서비스 보장 범위를 위반한다고 해서 CSP사들은 치명적 영향을 받지 않는다”면서 “통상 고객이 피해를 본 만큼 (무료 등) 서비스를 더 제공한다고 SLA에 명시하기 때문”이라고 말했다.

◇MS 시장 점유율 변화 촉각…클라우드 산업 규제는 지양해야

국내 클라우드 업계에선 IT 대란으로 MS의 대외 신뢰도 하락은 불가피하다고 봤다. 이를 토대로 클라우드 시장 점유율에 일정 부분 변화를 전망했다.

한 클라우드 업체 관계자는 “생성형 인공지능(AI) 개발사인 오픈AI 등과 시너지 효과 등으로 시장에서 주도권을 높이고 있던 MS가 암초를 만난 것”이라며 “MS가 추후 어떤 내용을 담은 대응책을 발표하느냐가 중요해질 것”이라고 내다봤다.

일부에선 IT 대란이 클라우드 산업 전반 규제로 이어지는 것 아니냐는 우려의 목소리도 나온다. 과학기술정보통신부 '2023년 클라우드산업 실태조사 결과보고서'에 따르면 국내 클라우드 시장은 지난 2020년부터 2022년까지 연평균 약 20% 성장해왔다.

한 클라우드 업계 관계자는 “정부 차원에서 네이버, KT, NHN 등 국내 민간 클라우드 사업자에 안전 관리 체계를 점검할 것으로 예상한다”면서 “단순 점검에 그칠 것인지 새로운 규제나 절차 신설로 이어질 지 지켜보고 있다”고 말했다.

이어 “이번 사태로 보안 문제에 경각심을 가지는 것은 바람직하지만 불필요한 규제가 더해질 경우 국내 클라우드 전환 속도는 늦어질 수밖에 없다”면서 “클라우드 기술 효용이 떨어질 수밖에 없고 혁신 기술 개발에 차질이 생길 것”이라고 덧붙였다.

류태웅 기자 bigheroryu@etnews.com, 김지선 기자 river@etnews.com, 박두호 기자 walnut_park@etnews.com