[김주한 교수의 정보의료·디지털 사피엔스]에어비앤비와 한글 '캡챠'

서울대 의대 정보의학 교수·정신과전문의
서울대 의대 정보의학 교수·정신과전문의

“걈쟣붙췸걔갛 뇨뮤 쫩뉘땋”. 오직 한국인만 해독할 수 있다는 '에어비앤비체'다. '감자부침개가 너무 짭니다'를 몹시 뒤틀어 놓은 '난독문'은 한글 초보자는 물론 최첨단 인공지능(AI)도 해독하지 못해 좌절한 것으로 유명하다. '에어비앤비체'는 공유 숙박 사이트 에어비앤비의 AI가 나쁜 혹평을 삭제하는 것을 회피하기 위해 발전한 기법이다.

처음부터 AI 차별을 위해 개발된 전략인 '에어비앤비체'는 '캡챠'(CAPTCHA)의 일종이다. '본인인증'이나 '로그인'을 할 때 문자와 숫자를 어지럽게 뒤틀어 놓고 알아맞히는지 우리를 시험하는 수문장 '캡챠'다. 인터넷에서는 상대방이 사람인지 기계인지 알 수 없다. 수많은 웹봇의 공격을 막고 오직 사람만 입장시키기 위한 기법이다. 기계는 절대 깰 수 없다. 구글은 얼마 전 “캡챠를 깼다”는 보도를 냈다. 눈속임이다. 구글이 깬 것은 구글이 자체 개발한 캡챠였다. 캡챠의 종류는 무한히 많기 때문에 자기가 만들고 깬 캡챠는 아무 의미도 없다. 오히려 구글의 보도가 제목만 읽고 믿기 쉬운 사람을 걸러내는 '눈속임 캡챠'다.

캡챠 원리는 '우리가 안다고 믿는 것들에 대해 사실 거의 아는 게 없다'는 것이다. 숫자 1과 2의 경계는 어디일까? 1를 아주 길게 잡아 늘리고 맨 위와 맨 아래를 아주 조금씩 꺾으면 1인지 2인지 알 수 없는 '2'를 만들 수 있다. 명확할 것 같던 1과 2의 경계선은 사실 존재하지도 않는다. 2와 3도 마찬가지다. '아'와 '어'의 경계도 불분명하다. 우리 대다수가 척 보아서 1이면 1이고 2면 2일뿐이다. 어차피 우리 자신이 '황금표준'이다. '감자부침개'의 발음 범위는 무한히 넓다. 광활한 음운 공간을 우리의 감각이 구분하는 범위에서 적당히 쪼개어 가, 나, 다, 라로 나누어 쓸 뿐이다. 평소엔 그 시대 표준(?)에 가깝게 발음하지만 '누군가'를 차별하고 싶어지면 비로소 '우리'를 '타인'과 구별할 경계면을 찾기 시작한다.

한글은 유일하게 음운론이 완성된 이후에 만들어진 문자체계다. 인류가 음운론을 이해하기까지는 수천 년이 걸렸다. 알파벳을 포함한 모든 문자체계는 음운론을 모르던 고대에 음 조각을 한 줄로 이리저리 꿰어 가며 진화했다. 한글은 '음소'를 넘어 '음절'도 '시각화'한 유일한 문자체계다. 한글로 '음소-음절 구조'를 쉽게 터득한 한국인은 '감자부침개'일 수밖에 없는 '걈쟣붙췸걔'의 다섯 음절을 '걈'과 '쟣'처럼 음절별 공간 안에서 뒤틀었고, '음절 시각화' 원리를 알 도리 없는 사람과 AI 모두를 무력화했다. 챗GPT는 '음소-단어-문장' 구조는 학습했지만 '에어비앤비체' 앞에서는 무력했다. '음절의 시각화'라는 무한히 넓은 공간을 본 적이 없으니 당연한 일이다. 물론 데이터가 많아진다면 학습도 가능하다. 그러나 정작 우리 자신도 잘 모르는 공간이며, 그동안 탐색해 볼 이유조차 없었던 공간이다. AI엔 미안하지만 우리도 더 가르치기가 어렵다.

우리는 놀라운 존재다. 우리는 전자기파의 무한한 파장 가운데 극히 일부분에 불과한 가시광선 영역만 볼 수 있고, 무한한 음파 가운데 2만 헤르츠까지만 들을 수 있으며, 우주공간 속 한 점에 불과한 지구에 갇혀서 겨우 몇 백만년을 살아갈 운명이지만 그 좁디좁은 창을 통해 가 볼 수도 겪어 볼 수도 없을 무한 우주를 상상하고 탐색해서 그려 내는 존재다. 데이터가 부족해서 학습이 불가능하다며 투덜댄다는 어떤 AI가 언젠가 우리를 앞설지 모른다는 '특이점' 호들갑을 걱정할 이유는 조금도 없다. 호기심 많은 우리에게 바깥 세상을 들여다볼 수 있는 작은 창이 하나 더 열렸을 뿐이다.

서울대 의대 정보의학 교수·정신과전문의 juhan@snu.ac.kr