영화 마이너리티리포트에는 미래 범죄를 미리 예측해서 찾아내는 첨단 시스템인 프리크라임이 등장한다. 영화 속 프리크라임 시대는 이제 현실이 되고 있다.
“살인이다”(범인 예측 지명)
“뭔가?”
“남녀 피살 사건이요. 범인은 40대 백인 남자. 아가사가 본 범행 시각은 8시 40분. 장소도 몰라요. 확증인 연결됐어요. 사건 번호는 1108.”
“보이세요?(Can you see?)” 2054년 미국 워싱턴DC 범죄예방수사국. 범죄를 미리 예측해서 찾아내는 첨단 보안 시스템인 프리크라임(Pre-Crime)이 범행이 일어날 장소나 시간, 사람까지 미리 예측해 앞으로 범죄를 일으킬 사람을 체포한다. 미래 범죄자를 추적하는 것이다.
영국 런던경시청은 범죄를 일으킬 것 같은 사람이나 범죄단체를 대상으로 빅데이터를 분석해 예측 가능한 소프트웨어를 테스트하고 있다. 액센추어가 개발한 이 소프트웨어는 영화 마이너리티리포트(Minority Report)처럼 가까운 장래에 범죄를 일으킬 것 같은 인물을 사전 예측하는 시스템이다.
이 소프트웨어에는 지난 4년 동안 런던에서 발생한 범죄 데이터가 수집되어 있을 뿐 아니라 갱 조직원이나 구성원이 저지른 개인 범죄 데이터도 담겨 있다. 날짜나 장소, 범인 이름이나 심지어 범인의 행동과 SNS 게시물에 남긴 말, 조직 내 다른 멤버를 욕하는 듯한 발언까지 세세하게 수집한다.
범죄 예측 소프트웨어는 이런 방대한 데이터를 바탕으로 누가 가까운 미래에 범죄를 저지를지 예측한다. 마이너리티리포트에 등장하던 첨단 예측 시스템인 ‘프리크라임’ 시대가 다가온 것이다.
#1 “앞으로 15분 뒤 살인 사건이 발생합니다”=프리크라임 시대는 이미 현실로 다가오고 있다. 영국경시청만 범죄 예측 소프트웨어를 사용 중인 건 아니다. IBM은 날씨 패턴과 범죄 기록, 모니터링 시스템 등을 통해 수집한 데이터를 바탕으로 범죄를 예측하는 시스템 크러시(Crush)를 개발하고 있다.
IBM은 이 시스템을 마이너리티리포트의 무대였던 워싱턴DC와 멤피스에 제공해 테스트를 진행했다. 그런데 이 소프트웨어를 도입한 이후 범죄 발생률은 30% 가량 줄었다고 한다.
프레드폴(PredPol)도 빼놓을 수 없다. 프레트폴은 UCLA 인류학자인 제프 브랜팅엄 교수가 개발한 범죄 예측 소프트웨어다. 프레드폴은 예측 치안(Predictive Policing)의 줄임말. 마이너리티리포트에 등장하는 프리크라임 시스템처럼 10∼12시간 뒤 발생할 수 있는 범죄를 예측하는 기능을 갖추고 있다.
브랜팅엄 교수가 이런 범죄 예측 시스템을 개발하게 된 이유는 범죄자의 행동과 심리를 연구하던 도중 일정 패턴이 몇 가지 발견됐기 때문. 장소나 시간, 재범률 등 다양한 요인이 패턴화된다는 사실에 주목한 것이다. 그는 이를 지진 예측 알고리즘에 적용했다. 지진 역시 일정 패턴을 바탕으로 미래를 예측하기 때문이다.
프레드폴 http://www.predpol.com
예를 들어 계절이나 시간별 범죄 발생 패턴을 보면 미국 시카고의 경우 시간대별로는 절도나 도난은 하루 종일 꾸준히 발생한다. 하지만 성매매 검거는 아침이 많다. 방화는 밤, 마약 범죄는 11시경부터 빠르게 늘어난다. 도박은 새벽에서 정오까지는 거의 발생하지 않는다. 요일별로는 다른 범죄와 달리 강도나 성매매는 주말보다는 주중이 더 높다.
또 시카고에서 일어난 14년간 범죄를 분석해보면 크리스마스 전후에는 범죄 발생률이 눈에 띄게 떨어지고 설날을 기점으로 다시 늘어난다. 마찬가지로 미국 독립기념일인 7월 4일이나 할로윈에도 범죄율이 떨어진다. 성범죄의 경우에는 1월 1일에 가장 많이 발생한다. 이런 빅데이터 분석은 범죄가 일어나기 쉬운 시간대나 계절 등을 바탕으로 범죄를 예방할 수 있다는 이유로 분석한다.
프레드폴은 정확한 예측을 위해 범죄 유형이나 발생 시간, 장소 등 방대한 빅데이터를 활용한다. 물론 예측 정확도를 높이기 위해 이런 빅데이터 외에도 사회기반시설이나 범죄 발생 장소에 배치됐던 경찰 수까지 데이터를 넣어 미래를 예측하기도 한다. 시애틀은 CCTV 데이터를 곁들여 프레드폴을 이용한다.
브랜팅엄 교수는 프레드폴이 수학 공식과 같다고 말한다. 예측 알고리즘에 따라 미래 범죄 발생률이 높은 곳을 예측하면 경찰은 발생률이 높은 지점을 연결한 일명 레드박스를 집중 순찰한다. 프레드폴은 이미 시애틀과 오렌지카운티, 영국 켄트주, 몬테비데오 등 다양한 도시가 도입, 테스트를 진행하고 있다.
이런 복잡한 시스템이 아니더라도 최근에는 CG로 만든 가상 10세 소녀인 스위티가 전 세계 71개국에서 1,000명이 넘는 소아성애자를 적발하기도 했다. 네덜란드의 한 어린이 지원 단체가 만든 이 가상 소녀는 소아성애증(小兒性愛症), 사춘기 이전 아이에게 성적 욕망을 느끼는 사람을 잡기 위해 만든 것이다. 스위티를 퍼트리고 웹캠을 통해 아동 매춘을 하는 사람을 잡아낸 것이다. 온라인을 통한 아동 성범죄가 심각해지자 아이디어를 낸 것이다.
실제로 스위티를 통해 적발한 1,000명 중 1명은 유죄 판결을 받았다. 물론 스위티가 실제 인간이 아니라는 점은 문제가 될 수 있지만 판결을 내린 영국 법원 측은 상대방이 컴퓨터 이미지였더라도 10살 아이라고 믿고 한 짓 자체가 법률 위반이라고 밝혔다. 스위티가 적발한 사람의 데이터베이스는 국제 집행 기관인 인터폴에 전달됐다.
스위티 http://www.terredeshommes.org/webcam-child-sex-tourism/
#2 “이 시스템은 법적인 오류가 있소”=물론 이런 범죄 예측 시스템에 문제가 없는 건 아니다. 앞선 스위티의 예처럼 대상 자체가 인간이 아닐 수도 있고 아직 일어나지 않은 문제에 대한 처벌을 어떻게 할 것이냐는 부분이 될 수도 있다. 범죄 예측 시스템이 얼마나 정확한지에 대한 문제도 남아 있다.
범죄 예측 시스템이 ‘예언’을 위한 도구로 이용하는 건 빅데이터다. 문제는 여기에서 또 하나 생긴다. 개인정보에 대한 불법 접근이나 사찰이 법적 문제를 불러일으킬 수 있는 것이다.
영국 첩보기관인 GCHQ의 경우 지난 2010년까지 180만 명이 넘는 야후 사용자를 대상으로 웹캠 화상채팅 영상을 대량 수집해왔다. 웹캠으로 화상 채팅을 하는 사용자를 대상으로 대량 이미지를 추출해 데이터베이스화한 것이다. 문제는 여기에는 범죄 용의자 뿐 아니라 일반인도 포함됐다는 것이다.
이 프로젝트는 테러 용의자나 범죄자를 식별하는 데 도움이 됐다고 말하지만 웹캠을 이용한 모든 대화를 수집하고 5분마다 안면 탐지 기술을 이용해 웹캠 영상을 캡처했다. 이 과정에서 수집한 이미지 중 3∼11%가 성적 부위를 다른 사람에게 보여주고 있는 것도 밝혀졌다고 한다. 범죄자에 대한 인물 이미지 자동 수집 기술이 사생활에 대한 사찰 활동이 된 셈이다.
1999년 아동 성학대와 납치 혐의로 기소되어 14년 동안 도주하던 중 네팔에서 체포된 닐 스태머. 그는 FBI의 얼굴 인식 소프트웨어와 데이터베이스를 통해 검거됐다.
미국의 경우 FBI가 올해 6월 차세대 인식 시스템을 발표하면서 얼굴 인식과 홍채 스캔 기술, 유전자 분석과 화자 인식까지 모두 종합 인식하는 식별 시스템을 내놓기도 했다. FBI는 여기에 5,200만 건에 달하는 이미지를 등록할 예정이다. 미국은 지난 8월 무려 14년 동안 도주 중이던 범인을 얼굴 인식 기술을 이용해 네팔에서 체포하기도 했다. 이렇게 장점도 있지만 얼굴 인식 시스템에는 범죄를 저지르지 않은 일반인 사진도 포함된다.
미국에선 하늘에서 지상에 있는 차량과 사람의 움직임을 실시간 감시하는 프로젝트 엔젤 파이어(Project Angel Fire) 시스템도 테스트 중이다. 날치기범을 추적하거나 중요한 범죄 단서를 확보하는 데 쓰인다. 하지만 이 과정에서도 얼굴이나 집안까지 들여다볼 수는 없더라도 개인 정보 보호 침해 문제가 제기되고 있다.
#3 “당신은 미래를 바꿀 수 있어요”=영국 경시청이 범죄 예측 소프트웨어를 도입하자 개인 정보 보호 활동을 하는 단체인 빅브라더워치는 “런던 경시청이 빅데이터 사용법에 더 주의할 필요가 있다”면서 “이런 예측이 정확하지 않을 위험성이 있을 뿐 아니라 자칫 특정 인물에 대한 사회적 낙인을 찍게 될 것”이라고 경고했다.
빅데이터를 활용한 미래 예측은 다방면에서 이뤄질 전망이다. 지난 6월 열렸던 월드컵 당시 화제가 됐던 건 문어가 아니라 구글이었다. 구글은 월드컵에 앞서 열린 개발자 회의에서 빅데이터를 통해 미래를 예측했다. 그간 축구 데이터를 바탕으로 통계 모델을 만든 다음 월드컵 32강전 8경기의 승패를 예측한 것이다.
결과는 놀라웠다. 구글 컴퓨터 엔진(Google Compute Engine)으로 처리한 승패를 보면 32강전은 모두 맞췄다. 브라질과 칠레는 72% 확률로 브라질(실제로도 승부차기로 브라질 승), 콜롬비아와 우루과이는 69% 확률로 콜롬비아(실제로도 2:0 승리), 아르헨티나와 스위스는 아르헨티나 68%(1:0 승리), 독일과 알제리는 독일 93%(2:1 승리), 벨기에와 미국은 벨기에 68%(2:1 승리)가 그것이다.
놀라운 결과다. 하지만 여기에서 다시 주목해야 할 건 모든 걸 다 맞추지는 못했다는 것이다. 4강에 합류할 팀으로는 브라질과 프랑스, 네덜란드, 아르헨티나가 될 것으로 예측하고 결승전 역시 55% 확률로 브라질과 아르헨티나가 붙을 것으로 예측했지만 실제로는 브라질과 독일이 대결을 펼쳤다. 빅데이터를 활용한 예측 분석은 상당히 놀라운 결과를 안겨주지만 어디까지나 확률의 문제, 브랜팅엄 교수의 말처럼 수학적 공식과도 같은 것인 만큼 미래를 단정 지을 수는 없을 것이다. 마치 마이너리티리포트에 등장하는 대사처럼 “당신의 미래를 알고 있으니 원한다면 미래를 바꿀 수 있다”는 말이 적절할 수 있겠다. 미래는 정해진 게 아니라 선택에 의해 만들어가는 것이라는….
월드컵에서 점쟁이로 유명해진 문어 파울. 인류가 미래를 문어보다 빅데이터에 맡기려는 건 분명 합리적이다. 하지만 어디까지나 확률이고 수학이라는 점도 기억해둘 필요가 있다.
전자신문인터넷 테크홀릭팀
이석원기자 techholic@etnews.com