한국광기술원, AI 기반 실시간 소리 객체 인식·상황인지 솔루션 개발

한국광기술원(원장 신용진)은 김선만 공간광정보연구센터 박사팀이 폐쇄회로(CC)TV 사각지대 환경에서 범죄 및 위급상황 감시가 가능한 '실시간 소리 객체 인식 기반 상황인지 솔루션'을 개발했다고 12일 밝혔다.

이 기술은 기존의 특정 이벤트에 국한된 2~10여 개의 소리만을 인지하는 기술 수준을 벗어나 복합적으로 섞여 있는 모든 종류의 소리를 감지한다. 실 환경에서 복합적으로 존재하는 소리 객체들을 개별적으로 인식하고, 시간에 따른 소리 객체의 분포 정보를 기반으로 현장상황에 대한 분석이 가능해 물리보안 관제 시스템에서 단독이나 영상정보와 함께 활용할 수 있다.

비명, 신음, 화재경보, 발자국, 맹견, 문소리, 아이 울음, 성인 여자 울음, 기침, 한국어, 영어, 중국어 등 모두 76개의 소리를 대상으로 한다. 소리신호 3초 내 복합적으로 포함된 소리 객체를 91% 수준까지 정확하게 분류할 수 있다.

한국광기술원은 AI 기반 실시간 소리 객체 인식·상황인지 솔루션을 개발했다.
한국광기술원은 AI 기반 실시간 소리 객체 인식·상황인지 솔루션을 개발했다.
한국광기술원이 개발한 AI 기반 실시간 소리 객체 인식·상황인지 솔루션.
한국광기술원이 개발한 AI 기반 실시간 소리 객체 인식·상황인지 솔루션.

이번 연구로 소리 기반 상황인지 기술이 실제 사회 안전망 강화를 위한 물리보안 분야에 적용될 수 있는 가능성을 시사한다는 점에 큰 의의가 있다. 기술적으로는 복합적 소리 객체의 정보를 기반으로 상황의 맥락을 분석하여 위급상황을 분류하는 기술을 확보해 물리보안 시스템용 소리인지 기술의 수준을 한 단계 높였다는 점을 들 수 있다.

경제·산업적으로는 안전과 직결되는 범죄·위급상황 통합관제 등 물리보안 분야에도 소리인지 기술을 유용하게 적용 가능해 향후 물리보안 및 상황인지 분야 전반에 걸친 새로운 보안 융합시장의 창출을 기대할 수 있다.

시민 안전을 강화하고 편의성을 높이는 스마트시티 구축사업의 일환으로 2000년대 후반부터 본격적으로 설치중인 CCTV는 현재 공공기관 기준 100만 대를 넘었다. 일정 범위 내 CCTV 보호 인프라가 갖춰진 지역 대부분에서 관제 시스템을 운용하고 있다. CCTV 통합관제는 112·119 센터 긴급 대응과 유기적으로 소통해 국내 사회 안전망 강화에 크게 기여하고 있다. 하지만 사회 안전망에서 벗어난 공간에서의 강력 범죄 및 안전사고는 여전히 끊이지 않고 있다. 2016년 서울 강남역 살인사건, 2019년 부산 여고생 황화수소 질식사건과 같은 CCTV 사각지대에서의 사건들이 대표적이다.

CCTV 감시가 가능하더라도 근래 청소년들 사이에서 유행하고 있는 기절 놀이와 같이 일상 사회활동 환경에서 발생하는 범죄 위급상황은 폭력적인 장면보다는 대화를 나누거나 놀고 있는 장면으로 착각하기 쉬워 이를 영상만으로 감시하는 데는 한계가 있다.

이광훈 한국광기술원 공간광정보연구센터장은 “4차 산업혁명시대 스마트시티 구현의 핵심 인프라인 통합관제센터의 기술 수준을 한 단계 끌어올렸다는 데 큰 의미가 있다”라며 “영상·소리 등 다중 정보를 활용하는 인공지능 기술개발에 박차를 가해, 사회 안전망 강화를 위한 다양한 물리보안 산업 분야 기업과 적극적으로 협력하겠다”라고 강조했다.

한편, 이번 기술개발은 과학기술정보통신부가 지원한 인공지능융합 선도프로젝트사업인 '인공지능을 이용한 음향기반 위급상황 분석 비상벨 관제 시스템 개발'을 기반으로 이뤄졌다. 비에스소프트(대표 장범석)가 공동 참여했다.

광주=김한식기자 hskim@etnews.com