[CIO BIZ+/기고]오픈소스의 과거·현재·미래 그리고 빅데이터

관련 통계자료 다운로드 글로벌 기업들의 오픈소스 SW 도입 이유

세계 기업들은 현재 오픈소스 소프트웨어(OSS)를 광범위하게 활용하고 있다. 가트너가 2011년 2월 발표한 자료에 따르면 세계 547개 기업 가운데 46%가 오픈소스를 사용 중인 것으로 나타났다. 이 기업들이 OSS를 도입하는 이유는 명확하다. 더욱 빠르고 비용 효율적으로 혁신적 기술을 IT환경에 적용할 수 있기 때문이다.

[CIO BIZ+/기고]오픈소스의 과거·현재·미래 그리고 빅데이터

◇스마트 기기를 가능케 한 OSS

세계 48개국 3000여 기업이 참가한 국제 전자제품박람회 `CES 2013`이 지난 11일 성황리에 마무리됐다. 올해도 2만개가 넘는 혁신적인 제품과 기술을 선보이며 관람객의 눈길을 사로잡았다. 최근 수년간 CES의 키워드는 단연 `스마트`다. 가전, IT 및 모바일 기기에 운용체계(OS)가 도입되면서 새로운 혁신이 시작됐다.

모바일용 중앙처리장치(CPU)와 OS를 탑재한 기기는 `스마트`한 폰·PC·스마트패드로 변신했다. 이 `스마트`함을 가능케 한 OS의 대부분이 OSS 리눅스 기반이다. 스마트폰 OS 시장에서 구글 안드로이드는 애플 iOS를 압도하고 있다. 수많은 통신사와 제조사는 안드로이드로 애플에 대항할 수 있게 됐다. 삼성전자와 LG전자의 스마트TV OS도 리눅스이며 웹 브라우저는 OSS 웹킷(Webkit)이 사용된다.

오픈소스가 스마트 기기 부문에서만 성과를 내는 것은 아니다. 엔터프라이즈 OSS 업체인 레드햇은 설립 10여년 만에 지난해 매출 1조원을 돌파했다. 메인프레임, 유닉스, 윈도 OS가 장악한 시장에서 거둔 의미 있는 성과다.

상용 소프트웨어(SW) 벤더도 오픈소스를 활용한다. 대표적인 기업이 IBM이다. IBM은 죽어가던 메인프레임에 리눅스를 탑재해 수많은 자바 애플리케이션이 운영되도록 했다. 오픈소스 리눅스가 폐쇄적인 메인프레임을 개방형 구조로 변모시킨 것이다. MS도 상호운용성 문제를 적극 해결하기 위해 오픈소스를 지원한다. 윈도 애저 클라우드 플랫폼은 MS 기술이 아닌 자바, PHP, 리눅스, 하둡 같은 OSS를 공식 지원한다.

◇빅데이터 확산 견인차 오프소스 `하둡`

오픈소스는 빅데이터 분야에서도 두각을 나타내고 있다. OSS를 빼놓고 빅데이터 프로젝트를 논하기는 힘들다. 빅데이터는 OSS 하둡과 x86 서버의 결합으로 성장동력을 얻었다.

하둡은 단순한 하나의 자바 프로그램이 아니라 빅데이터 처리를 위한 거대한 SW 생태계다. 하둡 SW 라이브러리는 클러스터로 연결된 컴퓨팅을 활용해 커다란 데이터 세트의 분산 프로세싱을 처리하는 프레임워크다. △하둡 커먼 △하둡 분산 파일 시스템 △하둡 맵리듀스가 기본이며 카산드라 H베이스, 하이브, 피그, 주키퍼 같은 다양한 연관 오픈소스 프로젝트가 등장하면서 거대한 생태계가 이뤄졌다.

하둡이 빅데이터 플랫폼 업계 표준으로 떠오른 이유는 저렴한 가격에 성능은 개선된 x86 서버의 영향이 크다. 많은 기업들은 관계형데이터베이스관리시스템(RDBMS)과 네트워크 스토리지(NAS), 스토리지 영역 네트워크(SAN) 구조로 데이터를 안전하게 저장·관리하고 있다. 하지만 인터넷 기업들은 엄청난 빅데이터를 이런 고비용의 상용 제품을 통해 처리하기는 쉽지 않다.

전용 스토리지 장비 대신 x86 서버를 병렬로 분산 처리하면서 비용을 대폭 낮출 수 있게 됐다. 오픈소스 파일 시스템은 안전한 서비스 제공을 위해 하나의 데이터를 여러개로 복제해 거대한 분산 컴퓨팅 환경에 저장한다. 하나의 시스템이 다운돼도 데이터 자체는 유실되지 않는 구조다.

◇주목받는 빅데이터 플랫폼

하둡은 거대한 SW 생태계다. 이를 활용하면 웹로그, 소셜데이터, 클릭스트림, GPS데이터, 상세통화내역(CDR)을 비롯해 기간계·정보계·분석계 등의 비정형·비구조화된 데이터를 효율적으로 저장하고 분석할 수 있다. 기존 RDBMS와 스토리지 장비로만 처리해 왔던 센서 데이터, 보안 로그, 시스템 로그, 서버·네트워크 장비 로그, 사물지능통신(M2M) 로그들도 폐기 없이 저장해 놓고 원하는 시점에 분석할 수 있다.

구글, 페이스북, 아마존, 이베이와 같은 인터넷 서비스 기업은 내부 인력을 확보하고 자체적으로 빅데이터 플랫폼을 구축했다. OSS는 언제든 가져다 활용할 수 있는 것이 장점이다. 하지만 이를 제대로 이해하는 인력이 내부에 없으면 효용이 떨어진다. 짧은 기간에 내부 인재를 키우기도 쉽지 않다. 이때문에 등장한 것이 바로 빅데이터 플랫폼 전문 기업이다.

시어스홀딩스, JP모건체이스, 비자, 월트디즈니, CBS인터랙티브 등은 전문 빅데이터 플랫폼 기업과 관련 프로젝트를 진행함으로써 진보적인 결과를 얻고 있다. 빅데이터 플랫폼을 도입한 시어스홀딩스는 200테라바이트(TB) 기준으로 기존 RDMBS와 비교해 약 65% 비용절감 효과를 거뒀다. 데이터 추출·변환·적재(ETL) 시간을 10시간에서 17분으로 대폭 단축시켜 보다 신속하고 세부적인 고객 통찰력을 확보했다.

SAP, IBM, 오라클과 같은 글로벌 기업들은 기존 데이터웨어하우스(DW) 제품과 연동되는 하둡 및 NoSQL 기반 빅데이터 어플라이언스를 선보였다. 인텔은 반도체 라인에 자사가 만든 빅데이터 어플라이언스를 테스트하면서 세계 수많은 빅데이터 플랫폼 회사에게 이를 공급할 계획이다.

◇글로벌 표준 한국형 빅데이터 플랫폼의 필수요건

빅데이터 플랫폼 기업이 해외에만 존재하는 것이 아니다. KT클라우드웨어는 △빅데이터 고급분석 솔루션 △빅데이터 컨설팅 △빅데이터 통합 플랫폼 SW를 기반으로 빅데이터 에코 시스템을 구현했다. 567억원을 절감한 KT 가입자 상세분석 시스템뿐만 아니라 금융사와 제조사 등을 대상으로 다양한 빅데이터 플랫폼 구축 프로젝트를 수행하면서 기술력을 인정받았다.

글로벌 기업들이 하둡과 NoSQL 지원 전용 어플라이언스를 출시했지만 국내서 큰 성과를 내지 못하는 점은 시사하는 바가 크다. 하둡 생태계 제품 성능이 개선되고 소스가 빠르게 변화하는 가운데 이를 지원할 국내 인력이 절대적으로 부족한 점이 주요 원인이다. 또 글로벌 기업의 독립소프트웨어벤더(ISV) 파트너들도 하둡을 연구하고 있지만 빅데이터 플랫폼을 제대로 구축하고 운영할 인력을 보유하지 못했다.

많은 국내 기업이 오픈소스 하둡 기반 빅데이터 플랫폼 도입을 고민 중이다. 자체 역량이 부족하다면 엔드 투 엔드 솔루션과 서비스를 제공하는 전문 플랫폼 기업을 활용하는 것도 좋은 방안이다. 이럴 경우 빅데이터 경험이 풍부한 오픈 소스 전문가가 있는지, 다양한 산업군에서 프로젝트 구축 경험이 있는지, 검증된 빅데이터 플랫폼을 보유했는지 여부를 꼼꼼히 살펴야 한다.

변진석 KT클라우드웨어 COO jin.byun@kt.com