클릭 한 번으로 800만권의 책을 읽을 수 있다면?
책을 좋아하는 사람이라면 한 번쯤 세계의 모든 책들이 한 도서관에 모여있는 것을 상상해본 적이 있을 것이다. 이는 인류의 오랜 꿈이기도 하다. 고대 이집트 알렉산드리아 도서관에서부터 보르헤스 ‘바벨의 도서관’ 등이 대표적이다.
1996년 미국 스탠퍼드의 대학원생 두 명은 모든 책을 통합하는 미래의 도서관 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 구상한다. 구글 창업자인 래리 페이지와 세르게이 브린이다. 하지만 디지털화된 책이 적어 이들의 꿈은 ‘구글’로 변신하게 된다. 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 기술을 검색 엔진으로 전환해 적용한 셈이다.
하지만 이들은 결코 포기하지 않았다. 전 세계의 정보를 조직화해 누구나 쉽게 접근할 수 있도록 만들겠다는 사명 아래 래리 페이지는 2004년 모든 책을 디지털화하는 ‘구글 북스 라이브러리 프로젝트’에 착수했다. 지금까지 디지털로 바뀐 책만해도 3000만권을 훌쩍 넘는다.
두 저자는 이 프로젝트에서 나온 빅데이터로 2010년 12월 하버드 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전 전문가들과 함께 ‘수백만권의 디지털화된 책들을 이용한 문화의 정량적 분석’이라는 논문을 발표한다.
두 저자는 구글이 디지털화한 책 중 800만권을 선택해 그 안에 들어간 8000억개의 단어가 1520년부터 2012년까지 얼마나 쓰였는지를 보여주는 ‘구글 엔그램 뷰어’를 만들었다. 검색창에 단어를 입력한 뒤 클릭만 하면 순식간에 800만권의 책을 검색해 결과를 보여준다. 이렇게 나온 결과를 분석하는 연구 방법이 ‘컬처로믹스(Culturomoics)’다.
예를 들어 19세기 말 니체가 말했던 ‘신은 죽었다’를 생각해보자. 구글 엔그램 뷰어에서 ‘신’을 검색하면 19세기 초 1000단어 당 1회 정도 언급됐지만 19세기 말부터 이의 절반 이하로 줄었다. 1973년부터는 만들어진 지 얼마 되지도 않은 ‘데이터(data)’라는 단어에 우위를 내줬다. 결국 클릭 한 번으로 800만권의 책을 통째로 분석해 인문학은 통계치를 추출할만한 데이터가 없어 정량 분석이 쓰일 수 없다는 통념을 깬 셈이다.
이 책의 저자들은 기술 발전으로 향후 인문학이 거대 과학과 맞물려 엄청난 진전을 이룰 것이라 내다봤다. 인류가 축적해온 역사가 빠른 속도로 디지털화돼고 이 데이터를 분석할 수 있는 기술도 연이어 등장하고 있다는 설명이다.
우리가 과거에 접근하고 이를 관찰, 이해하는 방식에 전면적인 변화를 낳을 수 있다고 두 저자는 주장한다. 이 책의 원제목인 ‘누구도 밟지 않은(uncharted)’ 미지의 영역이 열리고 있다는 얘기다.
우리나라는 어떨까. 이 책엔 국내 최고의 빅데이터 전문가로 송길영 다음소프트 부사장이, 인문학계에선 천정환 성균관대학교 국어국문학과 교수와 허수 한림대학교 한림과학원 교수가 참여해 한국 인문학의 빅데이터 활용 현황과 전망 등 다양한 주제에 대해 논한 한국어판 특별 좌담도 담겼다.
에레즈 에이든, 장바티스트 미셸 지음. 김재중 옮김. 사계절출판사 펴냄. 2만2000원.
김주연기자 pillar@etnews.com