<테마특강> 「PcMeter」를 이용한 인터넷 접속률 측정

발행일 : 2000-08-29 15:25

이상경 인터넷메트릭스 사장

이상경 사장 약력

75년 연세대학교 사회학과 졸업

83년 연세대학교 대학원 철학과 석사

84년 이화여대 철학과 강사

현재 현대리서치연구소 대표, 한국여성개발원 강사은행 강사, 연세대 대학원 사회학과(박사과정), (사)한국마케팅여론조사협회 상임이사, 서울시 여론조사심의위원회 위원, 기획예산처 행정개혁위원회 위원, 대통령직속 여성특별위원회 비상임위원

몇 년 전부터 인터넷리서치는 아주 실험적인 수준에서 시도돼 왔다. 그러다 점차 인터넷이 갖고 있는 상호 작용성, 즉시성, 응답의 편리성과 이로 인한 저비용 등으로 인해 이를 이용, 조사하는 인터넷 리서치가 급증했다.

그러나 현재 인터넷을 통한 조사는 표본설계, 응답절차의 타당성과 신뢰성 등에서 많은 문제점을 갖고 있다. 그로 인해 리서치의 기본이 지켜지지 않은 많은 인터넷 리서치가 발표되기도 하고 중요한 여론형성의 도구로 남용되거나 오용되고 있는 실정이다. 남용, 오용의 근본 원인은 리서치를 과학적 도구로 인식하지 못한 데서 오는 것이라고 본다.

가장 중요한 원인은 표본추출에 대한 이해부족이 아닐까 싶다. 리서치는 과학적 원칙과 절차를 준수할 때만 그 과학성을 담보받을 수 있다. 그 중에서도 표본추출에 대한 이해가 무엇보다 중요하다. 인터넷리서치의 표본추출과 관련해 가장 심각하게 우려해야 할 사항은 「자기선택오류(self - selection bias) 문제를 어떻게 해결할 것인가」다.

인터넷조사는 「3중 자기선택오류」에 노출돼 있다. 첫째는 모집단에서 인터넷사용자가 대표성을 가질 수 있는가, 둘째는 인터넷 사용자 중에서 응답자의 대표성을 어떻게 확보할 것인가, 셋째는 다중 응답자(multiple respondent)를 어떻게 막을 것인가 등의 문제다.

인터넷 사용자의 모집단에 대한 이해를 위해선 인터넷 사용자에 대한 규정이 전제된다. 인터넷 사용자는 인터넷 관련 기관별로 각기 다른 기준을 사용하고 있다. 주 1회 이상·월 1회 이상 등 이용의 양이나 빈도에 따라 연령 제한 없이 할 것인가, 7세 이상·12세 이상·15세 이상·16세 이상 등 연령별로 어떻게 규정할 것인가, 또한 www만 포함시킬 것인지, 아니면 TCP/IP 통신규약을 따르는 www를 비롯한 모든 애플리케이션을 포함시킬 것인지 하는 인터넷의 범위 규정 등이 다르게 적용되고 있어 아직 세계적으로 표준화돼 있지 않다. 이는 어쩌면 당연한 현상일지도 모른다. 인터넷은 아직 초기 진입단계로 그 범위가 급속히 커져가기 때문에 계속 정의가 새롭게 내려져야 할 것이다.

국내 인터넷 이용자를 대표하는 집단을 표본으로 추출하기 위해서는 모집단에 대한 조사가 선행돼야 한다. 다음으로 중요한 것은 기존의 설문방식으로는 네티즌이 자신의 무수한 클릭을 기억하는 것은 불가능한 일이기 때문에 설문에 의한 답변을 취합해 온 기존의 조사 방법으로 네티즌의 인터넷 이용행태를 파악하는 데는 한계가 있다는 점이다. 따라서 TV시청률 조사에서처럼 표본 추출한 네티즌의 PC에 접속추적 소프트웨어(log tracking software)를 설치해 방문 사이트를 측정하는 방법이 이에 대한 대안이라 생각한다. 인터넷 접속률 조사는 기존의 TV시청률 조사기법을 인터넷에 적용한 방식으로 네티즌의 컴퓨터에 접속추적 소프트웨어를 설치한 후 이들의 인터넷 방문기록을 수집, 네티즌의 인터넷 이용행태를 분석하는 서비스다.

패널의 PC에 설치된 소프트웨어는 사용자 이름, URL, 시간 등(UserName, http://www.daum.net/, 21:36:43)을 추적해 서버에 전송하며 서버에서는 사전에 구축된 패널정보(이름, 나이, 성별, 학력, 직업 등)와 수집된 인터넷 내비게이션 경로를 이용, 통계적 분석을 행한다. 이를 위해 「로그 스트림 애널라이저(log stream analyser)」라는 분석툴을 개발해 활용하고 있다. 이 방법의 장점은 표본 추출된 패널(사용자)의 정확한 정보를 바탕으로 성, 연령, 직업 등에 따른 분석을 통해 정확한 마케팅 지표로 삼을 수 있다는 점이다.

세계적으로는 미디어메트릭스가 1996년 최초로 서비스를 시작했고 닐슨넷레이팅스, 앳피씨데이터 등이 서비스중에 있다. 국내에서는 인터넷메트릭스가 이 같은 개념을 도입해 서비스를 실시중이다.

모든 네티즌의 PC에 동일한 소프트웨어를 설치(전수조사)할 수 없는 현실에서 어떤 네티즌을 어떻게 표본 추출할 것인가는 중요한 문제다. 지원자를 모집해서 패널을 구성하면 적극적인 인터넷 이용자와 경품 등 인센티브에 민감한 층의 가입률이 높아질 것이다. 그리고 특정 웹사이트를 통해 지원받는다면 해당 사이트의 방문자가 과다하게 나올 가능성이 있고 조사결과에 민감한 특정 이해집단의 참여를 통제할 수 없게 될 것이다.

패널의 동의를 받은 후 로그추적 소프트웨어(PcMeter)를 전자우편으로 송부하는데 이용장소 및 PC공유 여부에 따라 PcMeter도 조금씩 달라진다. 이는 두 개 이상의 PC를 통해 인터넷을 접속하는 경우와 하나의 PC를 여러 명이 사용하는 경우에도 실제 이용자별로 로그 데이터를 분리, 현실을 보다 정확히 반영해 내려는 노력의 산물이다. 또한 전자우편을 이용하지 않는 네티즌에게는 ID와 비밀번호를 부여한 후 웹사이트에서 프로그램을 다운로드받게 하고 있다.

패널이 자신의 PC에 PcMeter를 설치한 후 인터넷에 접속하면 방문한 웹사이트의 URL 및 방문시간이 인터넷 이용환경(OS, 해상도, CPU, 메모리 등)에 대한 정보와 함께 인터넷메트릭스 서버로 자동 전송된다. 수집된 로그 데이터를 방문자의 프로파일과 교차시켜 분석하면 각 웹사이트에 어떤 사람들이 방문하는지 알 수 있으며 반대로 특정 인구통계적 성격을 갖은 사람들이 어떤 사이트를 주로 방문하는지도 파악할 수 있다. 이런 과정을 거쳐 만들어진 「인터넷 인덱스(인터넷 접속률조사)」는 페이지뷰뿐만 아니라 방문자수, 방문횟수, 체류시간 등 다양한 기준으로 사이트별·인구통계적 변수별로 집계, 매주 온라인에 제시된다. 방문자수는 특정기간 동안 해당 사이트를 한번이라도 가본적이 있는 사람들의 수에 대한 추정이고 방문횟수는 특정기간 동안 전체 네티즌이 그 사이트에 방문했을 횟수를 합한 숫자다. 한 사람이 여러 사이트를 번갈아 반복 사용하면 짧은 시간에 방문횟수가 계속 늘어날 수 있기 때문에 일정시간 내에 다시 사이트를 방문할 경우 별도의 방문으로 간주하지 않는다. 또한 LAN 환경의 네티즌이나 정액제로 인터넷에 접속하는 네티즌에게는 인터넷 접속 후 다른 용무를 보는 경우가 있는데 데이터의 왜곡을 막기 위해 한 페이지당 체류시간의 최대치를 두고 있다.

인터넷인덱스는 웹사이트 순위 이외에도 프로퍼티(동일 기업이 운영하는 웹사이트 집합체)나 포털, 언론, 금융, 증권, 쇼핑몰 등 카테고리별 순위를 제공하며 특정 이용자 그룹(예를 들어, 20대 대졸 여성 등)의 웹사이트 방문현황도 보여준다. 그리고 이와는 별도로 고객들에게는 보다 심화된 분석 결과들이 제공되는데 여기에는 특정 웹사이트를 방문하는 경로, 경쟁사와의 방문자 중복, 장기적인 변화 추이 등에 대한 자료가 포함될 예정이다.

반면에 각 서버에도 로그가 남게 되는데 「이를 활용할 수 있지 않은가」 라는 질문을 많이 받고 있다. 이를 서버중심 로그분석(Site Sentric Measurement)이라 한다. 웹서버가 기록하는 로그를 기반으로 분석하는데 다음과 같은 일반 형식을 갖고 있다.

152.163.188.65 - ihsadm 「02/Jul/2000:10:16:24 +0900」『GET/main.htm HTTP/1.0』 200 1246 IP Address, clients Ident, user name, date - time and timezone, URL, status Code, count of transferred Ident bytes.

이 로그 파일에 기반한 사용자 행태분석이 갖는 가장 큰 문제는 사용자를 정확히 구분할 수 없다는 점이다. 웹서버 로그파일 분석으로 산출하는 접속자수는 첫번째 필드의 IP 어드레스로 사용자를 구분하는데 이는 사용자를 정확히 구분할 수 없는 문제가 있다. 첫번째 필드는 사용자 컴퓨터 IP주소, 사용자가 인터넷에 접속할 때 사용하는 방화벽이나 프록시(proxy)서버의 주소가 될 수 있다. 사용자 컴퓨터의 IP주소일 경우에는 어느 정도 유일한 사용자를 식별할 수 있으나 PC를 여러 사람이 공용으로 사용할 경우 유일한 사용자를 식별할 수 없기 때문에 방화벽이나 프록시서버의 주소일 경우에는 거의 사용자를 식별할 수 없다. 프록시서버는 ISP나 기업환경에서 속도나 보안문제를 보완하기 위해 사용하는데 같은 ISP를 이용하거나 같은 기업내에 있는 사용자가 웹 서버에 접속했을 때는 똑 같은 IP주소가 표기되므로 수만명의 다른 사용자가 접속한 경우에도 똑같은 IP주소가 표시될 수 있다. 또한 이것은 사용자 정보(성, 나이, 학력 등)를 알 수 없기 때문에 유의미한 정보로 가공하기에는 부족하다.

이 점을 보완하려면 세 번째 필드에 있는 사용자 이름을 이용하는 방법이 있으나 이 역시 한계를 갖고 있다. 세 번째 필드는 웹서버에 의해 인증된(HTTP Basic authentication) 사용자 이름을 나타내므로 유일한 사용자를 식별할 수 있으며 필요하다면 사용자 정보를 이용할 수도 있다. 그러나 이는 사용자 인증을 거친 사용자의 이름만을 나타내므로 인증을 거치지 않은 사용자의 이름은 표기되지 않는다.

다음 문제점으로는 사이트간 접속률 비교가 어렵다는 것이다. 국내만 해도 헤아릴 수 없을 정도로 많은 사이트가 있지만 모든 사이트에서 자발적으로 사이트 접속률을 분석, 발표하지 않는다면 사이트간 접속률에 대한 상대비교는 불가능하다. 물론 웹사이트 공사(http://www.kabc.or.kr)에 의해 상대비교가 가능하지만 각 사이트들의 이해관계로 인해 공사에 참여하는 사이트가 미미한 실정이다.

리서치는 「과학」이다. 자연과학적 원칙들에 비교하면 엉성해 보이기도 하지만 그건 인간, 사회가 갖고 있는 특성에 연유하는 것으로 그만큼 어렵고 많은 투자가 필요한 작업이다. 그러니 더욱더 과학적 원칙에 충실해야 하지 않을까 한다. 그 과학성이 가장 지켜져야 할 부분은 표본추출에 있다.