[테마특강] 입체음향기술

김 현빈

85년 중앙대 응용통계학과 졸업

88년 중앙대 대학원 응용통계학과 석사과정 이수

91∼93년 일본 나고야대학대학원 공학과 연구원

96년 일본 오까야마대학대학원 자연과학연구과 박사과정 이수

84년∼현재 한국전자통신연구원 컴퓨터소프트웨어연구소 책임연구원, 한국감성과학회 이사

멀티미디어를 지향하는 PC의 발전은 사용자에게 영상장치와 함께 음향장치에 대한 관심도 더불어 증대시키고 있고, 현실감을 지향하는 오디오 제품의 성능향상은 실감나는 음향을 듣고자 하는 청취자의 욕구를 충족시키고 있다. 이같은 경향에 따라 최근 입체음향이란 용어가 많이 사용되고 있다.

입체음향은 백과사전에 「원음장을 충실하게 재현하고 음의 고저, 음색 뿐만 아니라 방향이나 거리감까지도 재생하여 임장감을 가지게 하는 음향」이라고 설명되어 있다. 일본음향학회가 발간한 음향용어사전에서도 「음향의 방향감, 거리감 등 음향 공간의 입체적인 인상과 임장감을 주는 음향」으로 정의하고 있다. 관련서적과 논문들을 토대로 입체음향을 정의하면 「음원이 발생한 공간에 위치하지 않은 청취자가 음향을 들었을 때 방향감, 거리감 및 공간감을 지각할 수 있도록 공간정보가 부가된 음향」이다. 정의를 자세히 살펴보면 인위적으로 공간정보를 부가한 음향만을 입체음향으로 정의하였는데, 이는 현장의 음향은 방향감, 거리감 및 공간감과 같은 공간정보를 자연스럽게 내포하고 있기 때문이다.

입체음향 재생(Playback)방식은 서라운드(Surround) 타입의 멀티채널 방식과 바이노럴(Binaural) 타입의 2채널 방식으로 구분할 수 있다. 각 방식에 따라서 입체음향 생성기술과 재생기술은 많은 차이점을 보인다. 멀티채널에 의한 방식은 두개 이상의 마이크로폰을 사용하여 음을 녹음하고 다수의 스피커를 이용하여 음향의 공간적 분포를 재생하는 방식으로 소리의 현장감을 향상시키기 위한 목적으로 많이 사용된다. 연주회장에서의 음향이 폭넓은 공간감을 주는 것은 반향음(벽면 또는 천장에서 반사되는 음)의 결과이다. 기본적으로 청취자의 전후, 좌우에 2개 이상의 스피커를 배치(녹음의 경우도 여러 개의 마이크로폰을 배치)해 음향이 청취자를 둘러싸는 서라운드 타입으로 재생한다. 대표적인 멀티미디어 재생방식이 「돌비프로로직」 「AC-3」 「MPEG2오디오」다.

소리의 전달경로는 실내의 벽이나 천정 등에 의한 반사, 회절, 산란 등의 현상을 발생시키는 공간전달계와 인간의 머리와 귓바퀴에 의한 반사, 회절, 공진 등의 현상을 유발하는 머리전달계로 구분된다. 귀로 전달된 소리의 공간적 단서를 지각하는 주된 요인은 양귀에 도달하는 소리의 시간차(ITD;Interaural Time Difference)와 소리의 세기차(IID;Interaural Intensity Difference)에 기인한다. 저주파의 경우 시간차로, 고주파의 경우 세기차로 지각하는 이중시스템으로 수행되며 두 시스템은 1∼5㎑사이에서 변환된다. 이외에 소리의 공간적 단서를 유발하는 요인들로는 시각적 효과, 머리 움직임 및 소리의 종류에 따른 친숙도 등을 들 수 있다.

음원(Sound Source)이 발생한 공간내에 있는 청취자의 양쪽 귀에 마이크로폰을 각각 설치해 녹음한 신호를 바이노럴 신호라 하며 이 신호를 헤드폰으로 재생할 경우 현장에서 직접 듣는 것과 같은 음상(Sound Image)을 지각할 수 있다. 여기서 음원이란 실제 물리적으로 음을 발생하는 객체나 위치를 말하며 음상은 인간이 지각하는 감각상의 음원을 말한다. 음원과 음상은 공간적 특성이 반드시 일치하지 않으며 음원과 음상이 일치할수록 좋은 음질의 입체음향이 구현되었다고 할 수 있다. 바이노럴 신호에는 음원의 위치, 방향 뿐만 아니라 음원을 둘러싸고 있는 공간, 즉 음장(Sound Field)과 관련한 공간적 단서들이 포함되어 있다. 음장이란 음향학적 용어로 가청주파수의 음파가 존재하는 공간을 말한다.

2채널에 의한 방식은 인간이 두 개의 귀로 음향을 지각하는 특성을 이용해 음상정위(Sound Image Localization)와 음장제어(Sound Field Control)에 의해 생성된 입체음향을 2채널에 의해서 재생하는 방식을 말한다. 바이노럴 타입의 2채널 입체음향을 생성하는 방식으로는 녹음과 필터링에 의한 방법이 있다. 녹음에 의한 방법은 청취자의 양쪽 귀에 장착한 두 개의 마이크로폰을 이용해 현장음을 녹음하고 이를 재생하는 방식이다. 인간의 머리전달계는 각 개인의 특성에 따라 다르기 때문에 동일 음원에 대해 바이노럴 신호를 녹음할 경우 사람에 따라 다양한 형태의 신호가 생길 수 있다. 가장 이상적인 입체음향의 구현을 위해서는 자신의 두 귀에 장착한 마이크로폰으로 녹음된 바이노럴 신호를 자신이 듣는 것이다. 모든 사람이 자신의 바이노럴 신호를 녹음할 수 없기 때문에 현재는 주로 청각 능력이 뛰어난 음악가나 표준치의 머리 모형을 가진 더미헤드(Dummy Head)에 장착한 마이크로폰을 통해 바이노럴 신호를 녹음하고 이를 일반 청취자에게 들려주는 방식을 이용한다.

필터링에 의한 방법은 단순음(모노음 또는 스테레오음)을 변형하여 입체음을 생성하는 방식으로 주로 머리전달함수(HRTF;Head Related Transfer Function)가 필터로 이용된다. 머리전달함수는 무향실 내에서 더미헤드를 중심으로 구의 형태로 배치한 여러 개의 스피커로부터 백색잡음(White Noise)과 같은 임펄스(Impulse) 신호를 방사시켜 더미헤드의 양쪽 귀에 장착한 마이크로폰으로 측정한 임펄스 응답을 푸리에(Fourier) 변환한 것을 말한다. 이 머리전달함수와 단순음을 컨볼루션(Convolution)하면 원하는 공간상의 위치에 음상을 정위시킬 수 있다. 무향실이 아닌 특정 실내에서 측정한 머리전달함수를 공간전달함수(Room Transfer Function)라고 하며 이를 이용하면 그 실내의 음장 특성을 생성할 수 있다.

청취자가 음원에 대한 공간적 단서를 지각할 수 있는 것은 머리전달계의 고유 특성에 의해서 두 귀에 입사한 두 신호간에 차이가 발생하기 때문이다. 이 두 신호차에 대한 특성은 머리전달함수에 내포되어 있어 이를 이용하면 입체화되지 않은 단순음에 공간적 정보가 부가된 바이노럴 타입의 입체음을 생성할 수 있다. 머리전달함수는 입사하는 각도에 따라 달라지기 때문에 여러 위치에서 임펄스에 대한 머리전달함수를 측정하고 이를 DB로 구축하는 것이 필요하다. 이 DB로부터 원하는 위치에 해당하는 머리전달함수를 선택하여 단순음과 컨볼루션을 수행하면 해당 위치에 음상을 정위시킬 수 있다.

MIT미디어연구소에서는 KEMAR 더미헤드를 사용하여 710지점에서 측정한 머리전달함수 DB를 인터넷(http://sound.media.mit.edu)에서 무료로 공개하고 있다. 현재 시스템공학연구소에서도 노이만(Neumann) 더미헤드를 사용하여 측정한 머리전달함수의 DB를 구축 중에 있다.

청취자가 지각한 음상에 대한 위치를 파악하는 것을 음상정위라 하고 음상을 공간상의 특정 장소에 위치시키는 기술을 음상정위기술이라 한다. 이 기술을 이용하면 고정된 특정 위치에서 소리가 지각되는 「위치음」효과와 소리가 한 위치에서 다른 위치로 움직이는 「이동음」효과를 생성할 수 있다. 위치음 생성은 해당 위치의 머리전달함수를 단순음과 컨볼루션 연산을 함으로써 얻을 수 있고 이동음 생성은 소리가 이동하는 궤적에 해당하는 연속적인 머리전달함수들을 단순음과 컨볼루션을 수행함으로써 얻을 수 있다. 이때 측정되지 않은 불연속 공간의 머리전달함수는 인접한 머리전달함수들간의 보간(Interpolation)을 통해 구할 수 있다.

이동음의 경우 머리전달함수를 이용하는 방식 외에 도플러(Doppler)효과를 이용하는 방식이 있는데 이는 음원이 가까워 지면 주파수가 높은쪽으로 이동하고 멀어지면 주파수가 낮은쪽으로 이동하는 현상을 이용하는 것으로 소리가 멀어지고 가까워지는 이동음 효과를 낼 수 있다.

음원을 둘러싸고 있는 실내 공간특성에 따라 동일한 음원이라 할지라도 청취자에게 다른 음향효과를 줄 수 있다. 예를 들어 동일한 피아노 소리라도 콘서트홀에서 들을 때와 일반 강당에서 들을 때에 청취자는 다른 음향 경험을 갖는다. 이는 실내 공간의 크기, 구조, 벽 또는 천장정의 재질 등에 의해서 음원에 대한 접음, 초기반사음, 잔향패턴 및 잔향시간 등이 달라지기 때문이다. 잔향은 음원으로부터 방사가 그친 후에도 천정이나 벽으로부터의 반사가 계속되어 울리는 음으로 공간감 생성에 주요한 요인임과 동시에 거리감 생성에도 중요한 역할을 하는 것으로 알려져 있다. 반사음과 잔향을 인공적으로 제어하여 특정 실내에 음원이 있는 것과 같은 음향효과를 생성하는 기술을 음장제어기술이라 한다.

음장제어에 가장 많이 사용되는 것 중의 하나로 스크로이더(Schroeder)잔향기가 있는데 이 잔향기는 병렬로 연결된 다수의 코움(Comb)필터와 두 개의 직렬로 연결된 전역통과필터로 구성되어 있다. 여기서 코움 필터는 특정 주파수가 진동하는 효과를 내고 전역통과필터는 잔향밀도를 증가시키는 역할을 한다. 이외에 실내의 잔향특성을 음향학적으로 모사하는 음선추적(Ray Tracing) 방식과 이미지 모델(Image Model)방식이 있다. 음선추적 방식은 음원에서 나오는 음은 모든 방향으로 방사되는 성질을 고려해 음의 에너지 분포를 구해 가상 음장을 생성하는 방법이다. 이미지 모델 방식은 빛이 거울에서 반사하는 것과 같이 음파도 실내의 벽면에 부딪혀 한번 반사한다는 전제하에 반사 경로를 구하여 가상 음장을 생성하는 방법이다. 또한 공간전달함수를 이용하는 방법이 있는데 이는 특정 공간의 공간적 단서가 내포된 공간전달함수를 측정하여 이를 단순음과 컨볼루션을 행하여 특정 실내의 음장 특성을 부가하는 방법이다.

바이노럴 타입의 입체음향을 재생하는 방식은 2개의 스피커에 의한 재생방식과 헤드폰 재생방식이 주류를 이루는데 이 두 방식은 서로 장단점이 있다. 우선 헤드폰 재생방식의 경우 충실한 입체음향 효과를 구현할 수 있으나 음상이 청취자의 머리 안쪽에서 지각되는 현상이 발생한다. 실세계의 소리들은 일반적으로 머리의 바깥쪽에서 지각되므로 머리 바깥 쪽으로 음상을 끌어내기 위한 과정이 필요한데 이를 외재화(Externalization)라 한다. 청취자에 따라 외재화에 대한 지각 정도가 다르고 주관적이기 때문에 아직 정립된 방법에 의한 기술은 보고되지 않고 있으나 정밀도가 높은 머리전달함수 또는 자신의 머리전달함수를 이용할 경우 외재화 효과를 어느 정도 얻는 것으로 보고되고 있으며 최근에는 잔향을 적절히 부가하여 외재화 효과를 꾀하는 방법에 대한 연구가 진행 중이다.

스피커 재생방식의 경우 헤드폰과 같은 내재화 현상은 발생하지 않으나 좌측 스피커에서 재생된 신호가 청취자의 좌측 귀에만 도달하는 것이 아니고 우측 귀에도 입사되며 우측 스피커의 신호도 같은 현상이 발생, 신호간에 서로 상호간섭(Crosstalk)을 일으킨다. 이와 같은 현상은 바이노럴 신호에 의한 입체음향 효과를 저하시키는 요인으로 작용한다. 스피커로 방사하기 직전에 크로스톡(Crosstalk)제거를 위한 역필터를 거칠 경우 상호간섭없이 입체음향을 스피커로 재생할 수 있다. 이 방식을 트랜스오럴(Transaural)시스템이라 하는데 충실한 입체음향 효과를 얻기 위해서 양 스피커와 청취자의 머리가 정삼각형의 꼭지점에 위치해야 하는 것이 단점으로 지적된다.