<데스크라인>더 정교한 검색서비스를 기다리며...

고은미 기획조사부장 emko@etnews.co.kr

「보이지 않는(invisible) 웹.」 이는 방대한 웹에서 검색엔진이 접근할 수 없어 찾을 수 없는 영역을 일컫는 말이다. 최근 미국 벤처기업 브라이트플래니트사는 인터넷에 저장돼 있는 정보는 5500억 페이지로, 야후나 알타비스타 등 검색엔진이 제공하는 10억 페이지의 550배나 더 큰 것으로 조사됐다고 발표했다. 인터넷의 발전속도가 얼마나 빠르고 검색기술이 그 속도를 쫓아가기가 얼마나 어려운가를 보여주는 단적인 예다. 이제 정보의 바다에서 검색엔진이라는 키를 쥐고 서핑을 하면서 원하는 정보를 찾는다는 것은 말 그대로 한강에서 바늘찾기에 비유하면 과장일까.

처음 웹에서 정보를 분류하여 디렉터리 서비스를 제공하는 야후의 등장은 인터넷이라는 바다에 등대 같은 존재였다. 그러나 정보량이 방대해지자 웹 이용자들은 몇 단계를 거치는 디렉터리 서비스를 답답해하며 키워드를 가지고 검색하는 색인어 방식의 검색 서비스 알타비스타, 라이코스가 각광받기 시작했다.

키워드 검색엔진은 수천개의 웹문서들을 데이터베이스화해 「로봇」이라고 부르는 일종의 프로그램이 자동으로 문서를 수집하는 것이다. 이 서비스 역시 너무나 많은 자료가 쏟아지므로 관계자들은 수많은 문서 가운데 처음 한두 화면의 정보만 이용자가 검색한다는 사실에 고민한다. 키워드 검색은 질문과 문서 사이의 유사도 또는 정확도를 계산하는 방식이 중요하다. 색인어를 추출해 내는 기술이나 유사도를 계산하는 방법의 차이가 기술의 핵심이 된 것이다.

키워드검색의 불리안 연산자(and, or) 사용에도 불편을 느낀 이용자들은 엠파스가 내세우는 자연어 검색이나 문장 검색이 새로운 해결책이 되지 않을까 기대하고 있다. 다른 검색 서비스들도 자연어검색, 인공지능형 검색 서비스를 추가하기 시작했다. 그러나 자연어 검색은 중복된 사이트가 너무 많이 나오기 때문에 검색 결과가 산만해지는 단점이 있다. 자연어 검색도 역시 기술적으로는 단어들의 연산이 기본기능이라는 점에서 기존 엔진기능과 크게 다르지 않다.

최근 미국에서 돌풍을 일으키는 「구글」이라는 검색엔진은 많은 사람들이 방문한 페이지는 그만큼 가치가 있다는 원리에 따라 페이지 랭킹이 높은 순서대로 검색 결과를 보여주는 알고리듬으로 차세대 검색엔진 자리에 도전하고 있다. 구글은 이미 한글 검색 서비스도 시작했고 전문가들은 검색 결과의 정확도면에서 타 엔진보다 우수하다는 평을 내리고 있다. 구글의 등장으로 정보의 바다가 출렁이고 있는 것이다.

차세대 검색기술이라고 내세우는 많은 서비스들은 이미 학계에서는 연구가 거의 끝난 상태다. 다만 업계에서 이것을 구현하는 방법의 묘미가 필요한 시점이다. 많은 사람들은 검색엔진을 통해 인터넷 공간에 접근하고 있으며, 인터넷 정보나 이용자는 더 빨리 더 많이 늘어날 것이 확실하기 때문이다. 검색의 정확성과 장비의 증설 문제는 경제성과 관련이 있고, 엔진업체는 무한정하게 인력과 자본을 투입할 수는 없기 때문이다.

검색엔진의 우수성은 보관 웹 페이지량과 업데이트의 주기에 따라 결정되는데 보관 웹 페이지의 무한정한 증설이 현실적으로 어렵다면 기존 자료의 업데이트라도 자주 해주어야 한다. 이용자는 자기가 검색한 자료들에서 「더이상 찾을 수 없습니다」 「404 Not Found」라는 문구를 만나고 싶지는 않기 때문이다.

국내 검색엔진 시장도 이제 「와이즈넛」이라는 차세대 검색엔진, 네이버의 네티즌과의 대화방식을 통한 양방향 검색 「넥서치」가 등장했고 인공지능 수준의 필터링기법을 채택한 「수에즈 에이전트」도 나왔다. 멀티미디어 시대 오디오, 비디오 검색기술도 각광을 받고 있으며 한 분야에서 강점을 보이는 검색의 전문화도 가능하다.

정보검색 분야는 웹에서 가장 기본적이고 치열하며 오랜 경험과 기술이 축적되어야만 진입이 가능하다. 언어학의 기본 위에서 정보학과 컴퓨터공학이 연계되어야 하고 이용자의 검색 관행을 파악할 수 있는 인지과학적 접근도 필수적이다. 인터넷 공간이 방대해질수록 더 정교하고 완벽한 검색엔진의 필요성은 더욱 절실할 것이다. 언제나 그렇듯이 기본이 강해야 경쟁력을 갖는다.