전자상거래 플랫폼에서는 브랜드 파워가 강한 신제품이 발표될 때 5분내에 평상시 보다 20~30배 정도로 높은 트래픽이 발생해 시스템 운영에 애를 먹는 경우가 발생한다. 심하면 시스템이 다운이 될 수도 있는 상황에 이르기도 한다. 매 순간 장애 없이 운영돼야 하는 전자상거래 시스템에서는 치명적인 일이 아닐 수 없다.
롯데닷컴도 수많은 브랜드의 상거래를 담당하는 LECS 상거래플랫폼을 운영하고 있기에 이러한 일에 대한 대비가 항상 필요하다. 롯데닷컴 IT 인프라팀의 김진우 팀장은 지난 4월 19일, 20일에 진행된 'AWS 서밋 서울 2017'에서 효율적인 전자상거래 구축 및 운영에 대해 롯데닷컴의 사례를 들어 설명했다.
전자상거래 플랫폼이 해결해야 할 과제
롯데닷컴은 1996년 국내 최초로 온라인 쇼핑몰 사업을 시작했다. 2016년 기준 총 거래액 약 1.8조원이고, 올해로 창립 21주년을 맞이했다. 20년 넘게 상거래 서비스를 수행하면서 쇼핑몰을 구축하는 IT 기술뿐만 아니라 물류, CS, 다양한 제휴, 광고, 마케팅 등 여러 상거래 서비스 전반에 다양한 역량들을 쌓아 왔다. 이를 바탕으로 롯데그룹의 쇼핑몰 HUB로의 역할을 수행하며 엘롯데, 롯데인터넷 면세점, 롯데슈퍼 등 그룹 대표 사이트를 구축, 운영하고 있다.
롯데닷컴은 롯데 그룹 내의 다양한 제조사에도 플랫폼을 적용할 수 있다는 자신감으로 2009년 LECS(Lotte.com E-Commerce Customizing Service)를 런칭했다. 롯데닷컴에서는 그 동안 쌓아온 노하우들을 바탕으로 스토어구축, 온라인과의 물류연동, 고객 응대 서비스, 브랜드마케팅, 프로모션, 회원제, 여러 가지 법규대응 등 온라인에서 필요한 모든 서비스를 제공했다. 유니클로, 무지, 나이키, 노스페이스 등 국내 외 유명 브랜드들이 LECS를 이용하고 있다.
나이키는 LECS의 대표사이트 중의 하나다. 2014년부터 나이키의 국내 온라인 사업이 강화되면서 좋은 제품들이 온라인을 통해서도 출시됐다. 처음에는 기존에 보유한 자원에서 수용이 가능한 수준으로 운영이 되었는데 입 소문이 나고 좋은 상품들이 지속적으로 온라인을 통해서 런칭 되면서 트래픽이 몰리게 되었다. 그런데 어느 시점부터는 런칭할 때 마다 사이트가 마비되거나 지연안내 메시지가 뜨는 등 장애들이 종종 나타나게 되었다.
일반적으로 이벤트에 발생하는 트래픽은 시스템을 경랑화하고 시스템에서 수용 가능한 트래픽을 측정하고 이벤트 때 들어올 트래픽을 예측해서 증설한다. 하지만 나이키는 다른 상황이었다. 사이트의 지연 장애 현상이 근본적으로 해결되지 못하고 시스템을 증설해보려 했지만 막대한 시스템이 투입되어야 했다. 근본적인 어려움은 얼마나 많은 트래픽이 들어 올지 추정하는 것도 어려운 상황이었다. 평상시 대비 2배, 3배, 10배 등에 대해 예측을 할 시간이 필요했는데 그럴 시간이 없었다고 한다.
조사해 봤더니 상품 런칭 후 1분 동안은 평상시 트래픽의 대비 20~30배의 트래픽이 들어오는 것으로 확인됐다고 한다. 기존에 겪어보지 못한 상황들이 계속 발생했고 이벤트 하는 날마다 상황을 대비하고 모니터링하는 것이 일상화 됐다고 한다.
그런데 대규모 이벤트를 원활히 수용하지 못해 신뢰도는 떨어지고 매출 손실은 커졌다. 이를 막기 위해 투자도 했지만 근본적인 해결이 안됐고, 시스템 구조가 대규모이벤트 처리에 효율적인 시스템 구조도 아니었다.
예측 가능하고 안정적인 고효율 서비스에 클라우드가 낙점
이런 상황에서 대규모 트래픽에 빠르고 안정적인, 효과적인 대응을 위해 AWS 도입을 검토하게 된 것. AWS를 도입해 신속한 서버 증설로 대규모 트래픽을 대응하는 안정적인 서비스 운영, 예측 불가한 트래픽 대응과 비용 효율적인 운영, 유연하고 효율적인 시스템 구축, 안정적인 분산 아키텍처를 구축해 고효율 아키텍처를 만드는 것을 기대했다.
프로젝트는 약 2개월간에 PoC(기술검증, Proof of Concept)를 통해서 사전 검증작업을 수행하였고 약 4개월간의 프로젝트를 실제 구현해 2015년 12월에 서비스를 오픈 하게 되었다.
당시에는 AWS의 일본 리전을 이용하였는데 2016년 4월에 한국 리전으로 이전하는 작업도 진행하게 되었다. 사전 PoC에서는 많은 검증을 했다. 실제로 동작하는지, 유연한 작동이 가능한지, 모니터링은 어떻게 해야 하는지, 시스템교체 동작은 잘 되는지, 장애가 발생했을 때 대응은 잘 되는지 등에 대한 체크리스트를 만들어서 하나하나 검증하였다. 일본 리전에서의 서비스에서 속도에 대한 큰 우려가 있었는데 한국 리전에서는 그 목표치를 달성하였다. 오픈 후에는 클라우드의 장점을 활용해 서울 리전으로 이전했다.
AWS의 기본적인 기능들을 통해 그간의 고민이 해결됐다. 많은 기능이 필요치 않고 IDC와의 연동을 위해 VPN을, 유연한 확장을 위해 ELB(Elastic Load Balancing), EC2, Auto Scaling을 활용했고 그리고 AWS에서의 신속한 데이터 처리를 위해 RDS를 이용해 복제 DB를 구현했다. 그리고 모니터링, 배포를 위해 AWS Cloudformation, Amazon Cloudwatch, AWS CodeDeploy를 이용했다.
이렇게 AWS의 영역과 IDC 영역이 구분돼 있는데 많은 트래픽이 집중되는 부분은 AWS에 집중했다. 그리고 IDC까지 포함하기에는 많은 시간과 비용이 들어 클라우드를 신속하게 실행하기 위해서 최소한으로 설계하였다. 상대적으로 트래픽이 적은 주문/결제단은 IDC에 구축했다.
서비스를 오픈한 2015년 12월에는 국내 리전이 구축되기 전 상황이어서 개인정보 이슈로 인해 AWS와 IDC를 연결한 하이브리드 아키텍처를 적용해서 기존에 발생하던 이슈를 해결했다.
AWS 클라우드를 도입하면서 얻은 효과는 우선 빠르고 유연한 인프라 구축과 평시 대비 20배를 초과하는 대량의 트래픽에 안정적으로 대응할 수 있었다. 클라우드 도입 전에는 나이키 아이템런치 3만 PV/분에 서비스 지연 및 시스템 다운이 있었다. 반면 도입 후에는 나이키 아이템런치 3만 PV/분 초과하는 이벤트에도 안정적으로 대응됐다. 운영비 절감 측면에서도 2016년을 기준으로 해서 자체 IDC투자 대비 연 4.6억원이 절감됐다.
유연한 환경의 제공이 클라우드로의 여행을 지속화시킨다
롯데닷컴의 클라우드 여정은 계속되고 있다. 2015년 12월에 나이키를 이전하고 작년에는 조금 더 세련되고 많은 기술로 유니클로를 이전했다. 롯데닷컴은 클라우드 퍼스트 전략으로 클라우드로 가능한지에 대한 질문을 우선하고 내부인지 클라우드를 선택할 지 고민을 하고 있다.
클라우드로의 이전은 단순히 IDC서버를 클라우드로 옮기는 의미가 아니다. 그러나 클라우드는 다양한 기술을 쉽게 적용하고 교체할 수 있는 유연한 환경을 제공해주어 롯데닷컴이 필요한 서비스를 개발할 수 있게 했다. 그런 점에서 교육과 공유가 필요하다. 클라우드로의 이전 과정은 롯데닷컴의 서비스 자체의 경쟁력을 높일 수 있는 기회이다. 이런 과정을 통해 조직의 역량이 강화되고 결과적으로 조직의 서비스 경쟁력을 높일 수 있게 됐다.
김진우 팀장은 “엔터프라이즈 시스템을 한 번에 SOA, MSA로 한번에 바꿀 순 없지만 작은 부분이라도 확신을 갖고 유연하게 바꿀 수 있는 가능성이 있다. 운영에는 리스크가 존재하기 마련이지만 이러한 과정을 통해서 핵심역량에 집중할 수 있는 시간을 확보할 수 있다고 생각한다. 변화, 혁신에 대한 자신감을 가지고 클라우드의 세계로 자신 있게 한발 내 딛기를 권한다.”고 말했다.
이향선기자 hyangseon.lee@etnews.com