하루 동안 네이버 녹색 창에 쏟아지는 검색 로그는 3테라바이트(TB)에 이른다. 네이버 블로그에는 매일 십만 건 이상의 문서가 새로 생기고 검색 결과에 반영되는 페이지는 3억개가 넘는다.
이윤식 NHN 검색본부장은 이렇게 쏟아지는 방대한 데이터를 분석해 검색을 비롯한 네이버와 한게임 서비스를 개선하는데 힘을 쏟고 있다. 그는 `빅데이터`가 업계 화두가 되기 전부터 NHN 서비스를 둘러싼 각종 문제를 해결하기 위해 대용량 데이터와 씨름해 왔다.
이 본부장은 “NHN은 이미 6년 전부터 검색 품질 고도화를 위해 대용량 데이터를 체계적으로 처리하고 분석해 왔다”며 “네이버는 빅데이터를 내세우진 않았지만, 빅데이터를 꾸준히 다뤄왔다”고 말했다.
검색 고도화를 위해 검색이나 방문, 클릭 로그 등을 정밀하게 분석할 필요가 있기 때문이다. 여기에서 실시간 급상승 검색어, 연관 검색어와 네이버 트렌드, 음악 추천 서비스 뮤직 라디오 등 다양한 네이버 서비스가 가지를 뻗어 나왔다.
이 본부장은 “데이터 분석을 바탕으로 블로그·뉴스·지식인 등 통합검색 분야 중 적절한 것을 상단에 올리고, 그 안에서도 사용자가 원하는 결과를 파악해 우선 노출되도록 해 네이버 검색 점유율 회복에도 일조했다”고 말했다. 검색 결과의 사용자 반응을 분석하는 `FAS` 시스템을 만들고 개선해 온 결과다.
그는 `빅데이터`가 그 자체로 가치있는 것은 아니라고 말한다. 빅데이터를 처리하는 기술보다 해결할 `문제`에 집중하는 것이 우선이라는 설명이다. 이 본부장은 “NHN이 바라보는 `빅데이터`는 명확한 `문제`를 해결하기 위해 보유 `플랫폼`을 기반으로 대용량 데이터를 처리하는 `과정`”이라며 “이를 통해 새로운 가치를 창출해 내야 한다”는 `3P 접근`을 제시했다. 문제를 바라보고 해결해 나가면서 봐야 할 데이터와 보지 말아야 할 데이터를 구분하는 경험을 쌓는 것이 중요하다.
이 본부장은 빅데이터를 처리하기 위한 기술적 기반을 만드는 데도 참여해 왔다. 데이터 분석 속도 개선을 위해 내부적으로 `네뷸라` 시스템을 개발했다. 전체 데이터를 스캔하겠다는 무모한 계획이었다. 한게임을 위해 `쿠바` 시스템을 개발했고, 두 개를 합치며 실시간으로 데이터를 분석하는 `메조` 시스템으로 업데이트했다.
NHN의 검색 기술은 신뢰할 만한 웹 문서를 우선 반영해 검색 만족도를 높이는 새 검색 알고리즘 `리브라`에도 적용된다. 이 알고리즘은 최근 네이버 블로그 검색에 적용했다. 이용자 만족도가 높은 문서와 낮은 문서를 모아 유형화하고, 이를 기반으로 신뢰할 만한 블로그와 그렇지 못한 블로그를 구별해 랭킹 로직에 반영했다. 이용자 클릭수나 블로그 활동 기간 등 만족도와 활동성을 평가할 다양한 데이터를 분석한 결과다.
한세희기자 hahn@etnews.com