다음(대표 석종훈)이 자체 검색 엔진을 상용화한다. 그동안 자체 검색 엔진이 없어 구글 검색 엔진을 빌려쓰던 다음은 막바지 독자 검색 엔진 개발을 끝낸 것으로 밝혀졌다. 이에 따라 검색 엔진과 관련해서는 더 이상 구글에 의존하지 않고 독자 행보를 걸을 것으로 보인다. 다음은 특히 자체 검색 엔진 상용화에 앞서 카페 내 주요 저작물에서 게시판·댓글까지 다양한 콘텐츠를 확보하고 네이버에 비해 부족했던 데이터베이스 규모를 크게 늘렸다.
다음커뮤니케이션은 17일 자체 개발한 검색 엔진을 다음 달 부터 ‘다음 카페’ 검색에 직접 적용한다고 밝혔다. 카페를 시작으로 다음은 자체 검색 엔진을 웹·블로그·이미지 등 전 분야로 확대할 계획이다.
다음 측은 “3월 카페 카테고리에 첫 자체 검색 엔진을 사용한다” 라며 “구글과 계약 기간이 남아 있어 당분간 웹 검색은 구글 엔진을 그대로 사용하지만 하반기에는 웹 문서에 자체 개발 엔진을 사용하고 올해 내에 모든 카테고리에서 구글 엔진을 다음 독자 엔진로 대체한다”고 말했다.
다음은 앞으로 포털의 궁극적인 경쟁력이 검색이라고 판단하고 2006년 엔지니어와 개발자를 중심으로 테스크포스를 구성하고 웹 검색 로봇 개발을 시작했다. 지난 해 중반 검색 엔진 초기 버전을 완료했으며 1년 동안 자체 데이터베이스를 대상으로 검색 베타 엔진을 시험한 것으로 전해졌다.
다음이 독자 기술로 선보이는 검색 엔진은 구글 ‘페이지 랭크’처럼 문서끼리 연결 관계에 기반해 우선 순위를 매기는 방식이다. 정보량이 많은 문서 별로 가중치를 차등적으로 부여한다. 또 실시간으로 문서 중요도에 대해 순위를 매겨 이를 검색 사용자에게 보여 준다.
다음 측은 “검색한 키워드가 특정 문서에 몇 번이나 노출되느냐를 계산해 우선 순위를 정한다”며 “특히 제목과 글이 전혀 다른 이른바 ‘낚시성 콘텐츠’를 걸러내는 데 주안점을 두었다”고 설명했다.
다음은 검색 결과 뿐 아니라 상대적으로 부족한 검색 데이터베이스도 크게 늘릴 계획이다. 다음 핵심 역량인 카페 검색을 개편하면서 검색 데이터베이스의 규모를 크게 늘릴 심산이다. 다음 사이트에는 카페 720만 개가 있으며 게시물 수만 23억 건에 달한다. 다음은 카페 데이터베이스를 이용하기 위해서는 카페 운영자 동의가 필요해 운영자를 중심으로 설득에 나서 전체 데이터베이스의 30%에 달하는 데이터 4억 건를 확보했다.
다음 측은 매일 수천개 다음 카페가 새롭게 등장하면서 콘텐츠가 만들어지고 있다”며 “자체 검색 엔진과 카페 콘텐츠로 네이버를 뛰어넘겠다”고 말했다.
강병준기자@전자신문, bjkang@, 정진욱기자