1930년 영국의 `브리티시 인터내셔널 영화사`는 영화를 완성하고 난감한 상황에 처했다. 불미스런 일을 저지르는 범죄자가 영화에 등장하는데, 우연히도 범죄자 이름이 영국의 한 귀족 가문 이름과 같았다. 녹음까지 다 마친 상황에서 뒤늦게 이것이 문제가 될 것이란 점을 알았지만 막대한 제작비를 다시 들여 녹음할 수는 없었다. 이 문제는 영화사에서 녹음 기사로 일하던 젊은 과학자 E. A. 험프리즈에게 맡겨졌다.
험프리즈는 필름 영상 트랙 옆에 있는 사운드 트랙의 구조를 잘 알고 있었다. 사운드 트랙은 겉보기에는 줄처럼 보이지만, 확대하면 높고 낮은 검은색 굴곡의 연속이다. 영사기로 영상 트랙과 함께 사운드 트랙에 빛을 쏘이면 검은색 굴곡이 높은 부분은 낮은 부분에 비해 빛이 덜 통과해 낮은 전류를 발생하고 이런 차이가 음의 변화를 만들어낸다. 험프리즈는 이에 착안해 문제가 되는 이름이 기록된 트랙의 특정 부분을 잘라내고 이를 새로운 이름이 나타내는 소리 파형의 그림으로 대체하면 된다고 생각했다. 이렇게 험프리즈는 손으로 그림을 그려 무에서 소리를 만들어냈던 것이다.
이런 발상은 당시 독일에서도 이뤄지고 있었다. 1930년대 초반 루돌프 페닌거와 오스카 피싱거는 각각 음성합성을 체계적으로 연구했다. 그는 알파벳 모든 소리를 그림으로 전환하면 모든 음성을 인공적으로 만들어낼 수 있다는 야심찬 프로젝트를 수행했다. 가령 알파벳 `a`가 만들어내는 그림은 `b` 그림과 달랐기에, 모든 알파벳을 그림으로 전환한 후 이들을 조합하면 원하는 구절과 문장 등을 생성할 수 있다고 생각했다. 이들은 음성 파형을 포스터 칼라를 이용해 그림으로 수없이 그려냈고 이를 필름으로 촬영해 사운드 트랙처럼 만든 후 빛을 투과시켜 소리로 전환시켰다.
소리는 결국 `그림`이었던 것이다! 에디슨의 축음기도 원통형 축음판에 돼지털로 만든 일종의 바늘로 전류 강도를 나타내는 그림을 그려 소리를 녹음했다.
오늘날 음성합성 기술은 일상생활에서 널리 사용되고 있다. 성우가 녹음을 하기도 하지만 오디오북은 전자적인 음성합성, 즉 TTS(text-to-speech) 기술로 만들어진다. TTS는 차량용 내비게이션, 신문기사 읽어주기 기능을 비롯한 다양한 웹 서비스, 어학 테이프, 모바일용 앱, 인공지능 채팅 서비스, 게임 등에 폭넓게 활용되고 있다.
현대적인 TTS기술은 유럽에서 페닌거, 피싱거 등이 그림으로 작업을 하던 1930년대 벨연구소를 중심으로 시작됐다. TTS는 그후 벨과 MIT 연구진에 의해 더욱 발전되어, 이제는 실제 인간 음성과 구별할 수 없을 정도의 합성 음성을 만들어낼 정도가 되었다.
TTS 기본 원리는 입력된 원천 텍스트를 단어로 전환하고 이를 음소로 전환해 데이터베이스에 저장한 후 이 요소들을 조합해 사운드로 생성해내는 것이다. 그래서 생성이 아니고 `합성`이라고 표현한다.
페닌거나 페싱거 기술이 그림에 의거한다면 벨연구소이나 MIT의 기술은 알고리즘에 의거한다는 점에서 차이가 있다. 소리와는 존재론적으로 다른 그림에서 또 다른 미디어인 소리를 만들어내고자 했던 험프리즈나 페닌거의 기술은 미디어 융합의 원형에 다름 아니다. TTS로 이제 우리는 인간처럼 말하는 로봇에 한 걸음 더 다가가고 있다. 인간 음성을 무에서 만들어내고자 하는 욕망은 아날로그 기술의 `그림`과 디지털 기술의 `알고리즘` 사이에서 공명하고 있다.
이재현 서울대 언론정보학과 교수(leejh@snu.ac.kr)