지금은 2000만건의 검색 데이터베이스(DB)로도 이용자의 욕구를 충족시키기 힘들다. 그러나 지금으로부터 3년 전, 즉 2005년 즈음에도 검색데이터로 쓰이는 사용자제작콘텐츠(UCC) DB의 양은 겨우 1000만∼2000만건에 불과했다. 물론 당시 그 정도의 DB도 엄청난 양이라고 말하기도 했다.
주요 인터넷 업계에서는 향후 몇 년 내에 UCC DB가 어느 정도 성장하리라 막연히 예상하기는 했다. 하지만 이른바 참여와 공유를 표방하는 웹2.0 시대가 도래하자 사용자가 만들어내는 콘텐츠는 이 예상치를 큰 폭으로 뛰어넘었다. 일차적으로 DB양이 증가하면 검색의 품질을 높이는 데 절대적으로 유리하다. 사람들이 작은 네모창에 입력하는 검색어의 종류도 시간이 지날수록 다양해지기 때문이다.
양지가 있으면 음지도 나타나게 마련이다. 정보의 양이 급격히 늘어나면서 검색 사용자들을 짜증나게 하는 스팸 문서의 양도 급증했다.
일반적으로 스팸 문서는 검색엔진을 교묘히 속여 마치 자신이 이용자가 원하는 정확한 검색결과 인양 위장하는 경향이 있다. 그래서 제시간에 스팸 문서를 걸러내지 않으면 검색자의 요구에 딱 떨어지는 정보를 제공하기가 쉽지 않다.
난 우리 팀원들에게 항상 ‘수사관’의 자세를 가지라고 주문한다. 도둑을 잡는 경찰처럼, 마치 미국드라마 ‘CSI’의 과학수사대처럼 냉철한 눈으로 스팸 문서와 스팸 문서 유포자들의 특징을 낱낱이 분석하라는 것이다. 이처럼 우리 개발자들은 그들을 무력화할 신무기 제작을 위해 불철주야 노력한다.
물론 스팸과의 전쟁에서 승리하기가 쉽지는 않다. 작은 검색창에 검색어를 입력하며 자신이 원하는 검색 결과를 애타게 기다릴 그 누군가를 위해 개발자들은 하루하루를 산다. 검색에 취해, 보람에 취해 오늘도 개발자들은 뻐근해진 목을 주무르며 모니터를 노려본다.
김상균 다음커뮤니케이션 검색기획팀장 kimsk010@hanmail.net