
온라인 쇼핑몰에 접속했다. 첫 페이지에 추천 상품이란 코너가 눈에 들어온다. 캡슐커피머신 기기가 추천 명단에 떠있다. 최근 구매를 고려 중인 제품이다. 어떤 제품이 있는지 인터넷에서 여러 번 검색했다. 쇼핑몰이 알아서 상품을 보여주니 따로 검색할 필요가 없다. 소비자 입장에선 클릭하지 않을 수 없다.
인터넷을 서핑하다보면 자주 겪는 상황이다. 평소 검색하고 관심을 갖고 있던 제품이나 이슈가 홈페이지 전면에 노출된다. 추천 알고리즘은 수학적 원리를 토대로 능동적인 콘텐츠 노출을 현실화했다. 이는 인공지능(AI) 시대에서 각광받는 분야 중 하나다. 전통 추천 알고리즘에서 진화한 새로운 형태의 추천 알고리즘도 등장하고 있다.
AI가 사용자에 맞춰서 콘텐츠를 노출하는 원리는 무엇일까. 핵심은 데이터를 필터링하는 것이다. 전통적으로 활용되던 필터링 방식은 두 가지다. '협업 필터링'과 '콘텐츠 기반 필터링'이다.
협업 필터링은 다수 이용자 행동 패턴을 기반으로 이뤄진다. 이용자 행동 정보 분석이 선행돼야 한다. 상품군에 따라 동반 구매 빈도가 높은 제품을 추천하기도 한다.
예를 들면 사용자 A가 온라인 쇼핑몰에서 캡슐커피머신과 캡슐커피를 구매했다. AI는 A에게 유사 품목을 구매한 다수 소비자가 함께 구매, 검색했던 제품을 제시한다. 스트리밍 서비스에서 이용자 B는 영화 C에 좋은 평점을 부여했다. 협업 필터링을 바탕으로 C에 높은 평가를 줬던 이용자가 선호하는 영화가 B에 선별 노출된다.
협업 필터링에서는 이용자 데이터가 축적돼야 효과적인 추천이 가능하다. 데이터가 충분하지 않은 상황에서는 '콜드 스타트' 현상이 일어난다. 데이터가 부족해 제대로 된 추천을 하기는 어려운 상황을 의미한다. 수집되는 데이터가 늘어날수록 신속한 분석이 어렵다는 점은 단점으로 꼽힌다.
콘텐츠 기반 필터링은 콘텐츠 자체를 분석한다. 콘텐츠 프로필을 작성한 뒤 사용자 기호와의 유사성을 비교, 추천한다. 콘텐츠는 이용자에게 추천할 제품이 될 수도 있고 나이·지역·직업 등 이용자 개인정보가 될 수도 있다. 이용자가 '좋아요'를 눌렀던 영화의 키워드를 바탕으로 이와 유사한 영화를 추천하는 것이 콘텐츠 기반 필터링 일환이다. 또 유사한 개인정보를 가진 이용자 층이 선호하는 영화를 제시할 수 있다.
협업 필터링 단점인 콜드 스타트를 개선할 수 있다. 다수 이용자 행동 양식을 구하는 것이 아니라 콘텐츠 자체에 주목하기 때문이다. 콘텐츠 프로필을 정밀하게 규정하기 어렵고, 평가자 주관성이 개입하는 점도 한계다. 추천 콘텐츠 다양성이 상대적으로 떨어진다는 지적 역시 제기된다.
두 방식 단점을 보완한 새로운 필터링 방식이 지속 등장하고 있다. 두 방식을 결합한 하이브리드 추천 알고리즘이 등장했다. 정보가 부족한 콘텐츠는 콘텐츠 기반 필터링을 적용, 콜드스타트 단점을 개선했다.
넷플릭스가 개최한 추천 알고리즘 공모전 '넷플릭스 프라이즈'에서도 흥미로운 알고리즘이 나타났다. '모델 기반 협력 필터링'은 콘텐츠에 내재한 데이터 패턴을 파악하는 것이 핵심이다. 사용자가 특정 콘텐츠를 선호하는 이유를 패턴을 통해 분석한다. 보다 정교하게 콘텐츠를 추천한다.
이영호기자 youngtiger@etnews.com