네이버, AI로 검색품질 한 단계 높였다

네이버가 새로운 인공지능(AI) 기법을 검색 서비스에 도입했다. 학습 데이터를 크게 늘려 검색 정확도와 품질을 높였다.

네이버는 이달 검색 서비스에 신규 '웹사이트 검색 랭킹 모델'을 도입했다. 정제된 '태깅 데이터' 외에 대규모 '태깅되지 않은 데이터'와 '사용자 반응'을 머신러닝에 활용하는 방식이다.

기존 검색 머신러닝 방법이 검증된 교과서로 공부하는 것이라면 새로운 랭킹 모델은 사설 학원 학습지까지 경험하는 것에 비유할 수 있다.

검색 기술에서 '랭킹 모델'은 사용자가 정보를 검색했을 때 검색 결과를 나열하는 순위를 정하는 시스템이다. AI는 사용자 의도를 반영한 정확한 결과를 내놓기 위해 스스로 학습한다. 머신러닝이다.

이때 대량 데이터를 학습에 사용한다. 지금까지는 태그를 붙인 학습 데이터를 주로 사용했다. 예를 들어 개와 고양이를 구분해야 하는 과정에서 '개' '고양이'가 태깅된 다량의 이미지를 사용한다.

태깅 데이터 구축은 정확한 학습이 가능하다는 장점에 비해 비용과 시간이 많이 들었다. AI용 학습 데이터를 전문으로 구축하는 업체도 생겨났다. 특히 검색을 위한 학습 데이터 태깅 구축은 다른 분야보다 훨씬 어려운 작업으로 평가된다. 사용자 반응이 민감하기 때문이다.

학습 데이터를 늘리기 위해 태깅되지 않은 데이터를 함부로 사용하는 것도 위험하다. 잘못된 예제가 학습 데이터에 추가될 경우 AI 성능을 악화시키는 경우도 생길 수 있다.

네이버는 이 같은 단점을 보완했다. 태깅하지 않은 데이터로 학습 예제를 생성할 때 각 예제 위험성을 추정하는 수준까지 머신러닝 성능을 발전시켰다. 안전하게 다량의 태깅되지 않은 데이터를 랭킹 모델 학습에 사용하는 길을 연 것이다.

네이버 관계자는 “한정된 양의 태깅 데이터뿐만 아니라 수많은 태깅되지 않은 데이터도 학습에 활용, 더 정확한 랭킹 모델을 학습할 수 있었다”면서 “네이버 검색 품질 평가 가이드라인에 더 부합하는 결과를 내는 랭킹 모델이 서비스에 적용됐다는 의미”라고 설명했다.

네이버는 검색 서비스에 AI 기술 적용 범위를 넓여 가고 있다. 머신러닝 기법 고도화 외에도 △〃웹페이지 형상을 시각적으로 인지해서 스팸 문서를 탐지하는 '비주얼 CNN 기술' △이미지로 된 웹사이트 메뉴 영역을 인식해 사이트 검색 결과 서브 링크로 활용하는 '광학문자판독'(OCR) 기술 △영문을 한글로 변환하거나 한글로 된 문자 표기를 유사 발음 한글로 변환해 검색하는 '자동번역 기술' 등이 대표적이다.

ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

김시소기자 siso@etnews.com