<시리즈> 엔터프라이즈 원투원 (84);공동체 지식 (3)

<정보 도구>

실제로 대규모 양의 데이터를 저장하고 분류하며 또한 이러한 종류의 유추를 끌어내기 위해 이용할 수 있는 방법은 전형적인 LTV 모델보다는 훨씬 복잡할 수 있다. 그러나 점차 증가되고 있는 마이크로 칩 기술 성능으로 인해 그 방법이 언제나 「통계적」 모델이어야 할 필요는 없어졌다. 지금은 PC 플랫폼에서도 근본적으로는 시행착오를 통해 학습하는 것에 지나지 않는 일부 형태의 신경 네트워크 엔진까지 지원할 수 있다.

신경 네트워크 계산은 하나의 가설, 즉 예를 들어 A타입의 신발을 구매하는 사람은 또한 B타입과 C타입의 등급도 매우 높게 평가하는 경향이 있다는 가설에서 출발한다. 이 같은 스타일 중 하나 또는 둘 모두에 대해 높은 등급을 매긴 사람들을 데이터베이스에서 찾고, 컴퓨터는 그 고객이 또한 A 타입을 구매했는지를 살펴보기 위해 한번에 한명씩 고객을 점검한다. 만약 그 고객이 동일한 스타일을 구매했다면 이 가설을 모든 고객들에게, 또는 이와 유사한 다른 고객들에게 적용되도록 강화한다. 만약 그렇지 않다면 이 가설은 가장 오류가 많았던 방향으로 약간 변경된 후 다시 테스트한다. 그런 다음 반복해서 테스트를 실시한다.

예를 들어 만약 이 과정에서 몇몇 고객들이 연속해서 B 스타일의 등급을 높이 매기지만 C는 그러지 않다면 컴퓨터에서 그 공식을 약간 조정한 다음 고객이 B에 등급을 매기는 방식에는 더 많은 가중치를 주고 C의 등급을 매기는 방법에는 가중치를 줄이는 식으로 새로운 가설 하에서 테스트를 다시 실시한다. 초고속 대용량 컴퓨터에서는 이 같은 계산을 초당 수백만 번을 수행할 수 있다. 이는 일백만 또는 그 이상의 고객을 대상으로 실제로 수백개의 변수를 단 몇 분만에 고려할 수 있는 신경 네트 모델을 되풀이해서 반복할 수 있음을 의미한다.

따라서 특정 고객을 좀더 잘 이해하기 위해 공동체 지식을 적용하는 문제와 관련, 컴퓨터의 속도와 성능으로 우리는 그 해답을 더 빨리 얻을 수 있고 또 우리가 지적으로는 실제 파악하는 것이 불가능한 그 이유를 파악할 수도 있다. 예를 들어 어떤 고객이 어떤 특정한 스타일의 신발을 구매하고 싶어하는 이유는 여타 유사한 고객들이 이 스타일을 좋아하기 때문이 아니라 그녀가 싫어한다고 말하는 것과 같은 종류의 신발을 싫어한다고 말했던 여타 고객들이 이 특정한 스타일의 신발을 구매하는 경향이 있기 때문이라는 사실을 파악할 수도 있다. 우리는 우리가 특정고객을 위한 특별한 제품을 찾기 위해 이를 사용하기 이전까지는 결과를 이해할 필요가 없다. 그러나 우리가 우리의 가설을 더 많은 고객 경험에 대해 테스트하면 할수록 우리는 더욱 더 정확하게 고객이 가장 바라는 제품이나 서비스를 모든 특정 고객에게 일치시킬 수 있을 것이다.

<엠피리컬 미디어>

피츠버그에 있는 카네기 멜론 대학 출신의 한 젊은 사업가인 켄 랭씨는 신경 네트워킹과 여타 기계 학습 기술들을 결합해 정보를 소팅하고 필터링하는 소프트웨어 기술에 관한 박사학위 논문을 냈다.

랭씨는 1995년 그의 이론을 「유-미디어」라는 상품으로 상업적으로 적용해 판매하기 위해 엠피리컬 미디어사를 설립했다. 유-미디어는 선별해야 할 뉴스 및 정보 선택권이 지긋지긋하게 많은 수백만 명의 인터넷 사용자들을 대상으로 하고 있다. 오늘날 전형적인 웹 사용자들은 자신이 항해 중 찾은 흥미로운 웹 사이트는 「북마크」하는 경향이 있다. 가장 유용한 「검색 엔진」을 만들어 유지하는 한편 일반 사용자들이 자신이 원하는 것을 더욱 쉽게 찾을 수 있도록 지원하기 위한 활기찬 경쟁이 웹 사이트 운영자들간에 치열하다. 그러나 가장 대담한 웹 전사들에게도 전체 시스템은 여전히 너무나 복잡하고 또 위압적이어서 쉽게 사용하기 힘들다. 웹에서 정보를 걸러내는 작업은 일견 소화전으로 물 한 모금을 마시려고 하는 것과 흡사하다.

첨단 기계 학습 및 신경 네트워크 도구가 있는 엠피리컬 미디어로 한번 들어가보자. 유-미디어는 고객을 위한 궁극적인 검색 엔진으로 커스텀화 해 사용할 수 있다. 즉, 고객이 명시한 선호와 고객의 상호작용 내력, 그리고 (이점이 가장 중요한데) 고객이 하는 것과 유사한 방식으로 상호 작용하는 여타 웹 사용자들의 내력을 바탕으로 고객이 개인적으로 가장 검색하고싶어 하는 정보에 직접 순응하는 엔진을 얻을 수 있다.

고객이 유-미디어를 사용해 뉴스와 정보를 검색함에 따라 고객이 다음 페이지나 선택 항목에 가기 위해 클릭하는 버튼은 실제로는 하나의 「레이팅 바」가 되는데 이는 녹색에서 빨간색으로 진척되는 연속적인 색상 단계로 되어 있다. 고객이 막대를 클릭하는 곳은 고객이 떠나는 데이터 또는 페이지에 대한 「흥미정도」로 고객의 개인적 만족을 표시할 것이다. 레이팅 바 메커니즘에 내재된 피드백의 풍부성 때문에 이 회사는 단순히 고객이 참조하는 페이지들의 「클릭 흐름」 목록을 분석하는 것에 그치지 않고 특정고객의 선호에 대한 그림을 훨씬 더 정확하게 그려낼 수 있을 것이며, 또한 훨씬 더 빠른 속도로 이 그림에 집중할 수 있을 것이다.

향후 그들 기업의 번영에 이 기술이 가지는 의미를 이해하고 있다는 랭씨에 따르면 『사용자들은 우리의 서비스를 독점적으로 유지함으로써 인센티브를 얻게 될 것이다. 이는 지속적으로 사용하면 더욱 더 효과적인 개인적인 프로필을 구축하는 데 투자한 시간 때문』이라고 설명한다. 결과적으로 이 회사는 자사의 기본적인 유-미디어 서비스를 무료로 제공할 계획이다. 일단 이 제품이 고객들을 묶어두면 이들에게 접근하기를 원하는 광고주로부터나 또한 보다 장기적인 고객들에게 보다 높은 가격으로 업그레이드 서비스를 판매하는 것으로부터 엄청난 수익을 창출할 수 있다는 계산에서다.

그러나 단순히 개별 고객의 독자적인 피드백에 자사의 정보 필터링을 커스텀화 한다는 것에서 한걸음 더 나아가 이 회사의 기계 학습 계산 엔진이 공동체 지식 원리에 입각하고 있다는 사실은 분명하다. 랭씨는 이를 「공동체 필터링」이라 불렀다.