민성원 야후코리아 CTO
필자 소개 민성원
◇UCLA 컴퓨터 공학 및 수학 전공
◇USC 컴퓨터 공학 석사 DB 테크놀로지 전공
◇제니스 인포메이션 시스템 소프트웨어 엔지니어
◇IBM 산타 테레사 연구소 선임 프로그래머
◇IBM코리아내 한국 소프트웨어 개발 연구소(KSDI) 기술
◇컴퓨터 소프트웨어 서비스 사장
◇현 야후 코리아 CTO(상무)
포털에서 검색 서비스는 인터넷 사용 목적 1순위로 90% 이상의 유저가 목적을 가지고 사용하며, 월 평균 95% 내외의 리치율을 보이고 있는 주요 서비스다. 또한 최근들어 지식검색, 지역검색 등의 신규 서비스가 선보이면서 유저의 활동성이 급격히 증가하면서 검색 서비스는 다양한 방식으로 ‘수익창출’의 기대주로 떠오르고 있다. 최근에 대우증권이 발표한 ‘인터넷포털-배너광고와 로컬검색 두마리 토끼가 뛴다’ 자료에 따르면 새로운 검색의 화두로 떠오르고 있는 지역검색 광고 시장이 올해 250억원 정도 규모에서 내년에는 약 1100억원 규모로 급성장할 것으로 전망했다. 이에 따라 광고 시장에 대한 포털사의 기대는 자못 크다 하겠다. 그러나 이러한 새로운 수익 창출을 위한 노력에는 ‘기술력’에 의한 뒷받침이 반드시 선행돼야 한다. 검색이 네티즌의 생활에 밀접하게 파고 들수록, 사용자들은 좀 더 ‘지능적인 검색 서비스’를 요구하기 때문이다.
◇지능형 검색 서비스를 위한 기술적 요소
현재 4대 주요 포털의 검색 서비스의 사용 성향을 분석해 보면, 이 가운데 3개 이상의 포털을 중복으로 이용하는 사용자의 비율이 63.3%에 달해 대다수 유저들이 사이트를 이동하면서 반복적으로 검색을 하고 있으며, 포털별로 특색 있는 세부 검색 서비스를 취사 선택하는 성향을 보이고 있는 것으로 나타난다. 이는 포털 내 구현 가능한 검색 기술과 고객 요구(NEEDS)에는 아직까지도 현격한 괴리가 존재하고 있으며, 실제로 고객 요구에 부합하는 최적화된 검색 서비스가 없다는 것을 반증하는 것으로 풀이된다. 바로 이 부분에서 포털들은 ‘지능화된 기술’로 시장을 재편할 수 있는 기회를 포착하려고 하는 것이다.
그렇다면 ‘지능화된 검색’을 위해 필요한 기술 인프라는 무엇일까
검색 기술을 크게 두가지로 본다면 우선 방대하고 다양한 형태의 정보를 수집하고 관리할 수 있는 기술과 그 많은 정보 중 사용자가 원하는 정보를 선별하여 제공할 수 있는 기술이라 할 수 있겠다.
정보의 수집 및 관리를 위한 기술로는 인터넷 사용의 확산으로 웹 상에 존재하는 정보의 규모가 기하급수적으로 증가함에 따라 요구되는 대용량 정보처리 기술과 각종 디지털 정보기기의 보급이 확산됨에 따라 그 필요성이 더욱 커진 사진, 음악 등의 멀티미디어 정보 처리 기술을 들 수 있다.
현재 네티즌의 인터넷 사용 행태를 보면 정보 수집 및 관리 기술에 덧붙여 방대한 정보 중 사용자가 원하는 정보를 선별하여 제공할 수 있는 지능형 검색 기술의 중요성이 커지고 있다.
이러한 지능형 검색은 몇가지 분야의 기술이 유기적으로 결합되어야 구현될 수 있다. 그 대표적인 기술로는 △자연어 처리 △지능형 랭킹 △자동 분류 및 요약 △개인화를 꼽을 수 있다.
먼저 ‘자연어 처리 기술’이란 단순히 사용자가 검색창에 입력한 검색어가 포함된 정보만을 찾아주는 것에서 나아가 사용자의 의도를 파악해서 그에 맞는 정보를 제공하는 기술을 말한다. 예컨대 ‘강릉 근처 해수욕장’이라는 사용자의 질의에 단순 분석을 통해 ‘강릉’ ‘근처’ ‘해수욕장’ 세 단어가 포함되기만한 문서나 정보를 제공해 주는게 아니라 실제 강릉 근처에 존재하는 ‘경포대 해수욕장’ ‘정동진 해수욕장’ 등 여러 해수욕장의 리스트를 보여주는 것이다.
이를 위해선 형태소 분석, 구문 분석, 유의어 확장 등의 해당 검색 서비스에 필요한 언어처리기술개발이 선행돼야 하며 또한 각각의 검색 서비스에 맞는 데이터베이스 구축이 필요하다.
‘지능형 랭킹 기술’은 사용자 질의에 보다 관련성 높은 정보를 상위에 제시하고 관련성이 낮은 정보를 제거함으로써 사용자로 하여금 원하는 정보를 빨리 찾을 수 있도록 도와주는 기술이다. 이와 관련한 대표적인 기술로 야후의 스팸 필터링 기술과 구글에 의해 처음으로 도입되어 유명해진 링크분석기술을 들 수 있다. 둘 다 보다 나은 관련성 정도의 측정을 위해 단순히 특정 키워드의 반복 정도나 해당 키워드의 문서 내 위치에만 의존하지 않고 다른 통계적 기법을 활용한다는 특징이 있다.
링크분석기술은 웹문서간의 링크 상관관계를 활용해서 더 많이 인용되는 즉, 더 인기 있는 문서에 높은 점수를 주어 보다 관련성 있는 정보를 우선 제공하는 것이 골자다. 야후의 스팸필터링 기술은 스팸 사이트들의 특징을 인공지능을 활용해 인식하고 걸러냄으로써 사용자가 원하는 내용에 보다 가까운 정보를 제공해준다.
이러한 지능형 랭킹 기술과 더불어 사용자로 하여금 더 빨리 원하는 정보에 접근할 수 있도록 해주는 것이 바로 ‘자동 분류 및 요약 기술’이다. 이는 각 문서들간의 유사도를 계산해 이를 바탕으로 주제별로 자동 분류하고, 의미 분석을 통해 요약 내용을 자동 추출해 제공함으로써 사용자가 모든 검색결과를 일일이 확인하지 않고도 원하는 정보를 확인할 수 있도록 도와준다.
앞에서 언급한 기술들이 주어진 검색어에 대해 가장 적합한 정보를 지능적으로 찾아주는 서비스를 가능케 한다면, 개인화 검색서비스는 같은 검색어에 대해서도 각 개인의 성향이나 상황에 맞는 맞춤형 정보를 제공해줄 수 있다. 이러한 개인화된 검색서비스는 대규모 사용자들의 사용형태를 통계적인 방법으로 분석한 뒤 이를 바탕으로 비슷한 유형의 혹은 상황에 있는 사용자들에게 그에 맞는 맞춤형 정보를 제공하는 것을 말한다.
물론 이밖에 각 개인이 검색을 통해 습득한 정보를 보다 편리하게 저장·관리하는 기능을 제공하고, 사용자들에 의해 1차적으로 가공된 정보가 자발적으로 공유됨으로써 시너지 효과를 볼 수 있는 확장된 개념의 개인화 서비스도 고려될 수 있다.
◇검색의 미래
올해 검색 서비스의 개발 방향은 크게 통합(integration), 개인화(personalization), 참여(participation)라는 세 분야로 가닥을 잡고 있다.
통합 검색은 풍부하고 다양한 야후 자체 서비스의 정보를 검색 결과와 연동해서 보다 깊이 있는 정보를 제공 하는 것이며, 개인화 검색은 뛰어난 데이터 마이닝(data mining)기술을 근간으로 개인별 맞춤형 정보를 제공하는 것이고 참여형 검색은 비단 지식 검색류의 질의응답(Q&A) 방식의 서비스를 넘어서 검색 전반에 사용자의 참여를 활성화하고 실제 검색서비스에도 반영이 되게 하는 것이다. 이제 검색은 검색자체로 끝났던 전통적인 검색방식에서 벗어나 사용자의 검색 행태 및 성향을 반영하고 표출될 수 있도록 확장된 서비스 형태로 발전하게 되는 모멘텀을 맞이한 것이다.
앞으로 검색기술은 좀 더 지능화된 ‘개인화 서비스’ 를 위해 경쟁적으로 발전할 것으로 보인다. 이미 음식점 전화번호를 검색할 때 A 라는 사람이 주소를 삼성동으로 입력했을 경우 사용자 위치를 기반으로 해 삼성동부터 근거리에 있는 정보를 검색해주는 초기단계의 개인화 검색이 실현되고 있다. 또한 사용자가 로그인 하지 않았다고 하더라도, 같은 키워드를 검색한 사람들이 자주 찾은 ‘관련어 검색’ ‘검색 순위’ ‘검색 트렌드’ 등을 모두 찾아주는 ‘기본적인 개인화 서비스’는 이미 일반화 돼있다.
하지만 앞으로의 관건은 기존 포털들이 진행해온 유저 프로파일(등록시 기입한 정보들)을 대상으로 하는 것이 아니라 이용자의 실제 이용 행태를 분석해 그들의 관심과 특성, 요구를 카테고리화해 검색 결과에 반영하도록 하는 데이터 마이닝 기술의 활용과 ‘유저들의 심리적 불안감’을 최소화하면서 지능화된 맞춤 검색 서비스를 제공하는 것일 듯 하다.
‘검색기술’ 전쟁은 이미 시작됐다. 그것이 앞서 말한 바와 같이 포털의 생존과 가치 창출, 그리고 다양한 서비스를 통한 부가가치의 확대를 위해 필수 불가결한 인프라라는 점은 둘째 치고 인터넷이 삶의 일부가 된 요즈음, 기술보다 항상 한발 앞서는 유저들의 ‘기대’와 ‘욕구’, 그리고 달라진 ‘삶의 패턴’들이 그 기술의 더 빠른 진보를 독려하고 있기 때문이다. swmin@kr.yahoo-inc.com