GIST, 영상 속 3D 깊이 정보 더 정확하게 추정하는 알고리즘 개발

발행일 : 2022-07-28 08:58

전해곤 AI 대학원 교수팀, 유럽 컴퓨터 비전 학술대회서 10월 발표
초점거리 기반 세계 최고 성능…VR·AR·메타버스 등 응용 분야 활용

광주과학기술원(GSIT·김기선 총장)은 전해곤 인공지능(AI)대학원 교수팀이 AI 기술로 자동 초점 기능에서 사용하는 영상 속 깊이 정보를 더 정확히 추정하는 알고리즘을 개발했다고 28일 밝혔다.

연구팀은 3차원(D) 가상현실409(VR409)·증강현실(AR) 영상 품질 개선, 메타버스692, 영상 기반 인지 탐지 등 컴퓨터 비전 응용 분야 발전에 기여할 것으로 기대하고 있다.

영상 속 깊이 정보는 AR·VR 3D 공간, 자연스러운 이미지 합성 등 응용하는 여러 분야에서 핵심 요소로 이용한다. 만약 깊이 정보가 없으면 3D 공간에 대한 정보가 없어 응용 단계에서 부자연스러운 영상을 구현할 수밖에 없다.

전해곤 GIST 교수팀이 제안한 초점거리 기반 깊이 정보 추정 네트워크 구조. 깊이 정보를 추정하는 네트워크만 다뤘던 기존 연구와 다르게 여러 초점에서 촬영된 영상들의 피사체 위치를 동일하게 맞춰주는 정렬 네트워크와 정확한 깊이 정보를 추정하는 네트워크가 하나로 합쳐진 엔드-투-엔드 구조를 제안한 것이 특징이다.

최근 구글 등 글로벌 정보기술(IT) 기업과 대학은 디지털 일안 반사식 카메라(DSLR42)나 스마트폰 카메라 자동 초점기능을 통해 획득한 초점 영상을 활용해 영상 깊이 정보를 얻는 연구를 진행하고 있다. 기존에는 좁은 피사계 심도를 갖는 단일 영상 기반 깊이 정보를 추정하는 것이 대부분이었다. 자동 초점 영상이 정렬돼 있다고 가정하거나 영상 데이터 특징에 따라 사용자가 직접 추가 설정으로 자동 초점 영상을 정렬하기 때문에 깊이 정보의 정확도가 떨어지는 한계가 있었다.

맨 왼쪽(RGB)의 경우 일반적인 카메라로 찍을 때 나오는 영상 화면이며, 나머지 오른쪽 4개의 이미지는 깊이 정보를 컬러 영상으로 나타낸 것임.빨간색은 카메라에서 가까운 부분, 파란색은 먼 부분.왼쪽에서 두 번째는 해당 데이터셋에서 제공하는 정답 깊이 값임.

전 교수팀은 카메라에서 출력한 메타데이터에서 자동 초점 기능을 통해 얻은 영상을 AI 네트워크로 정렬하고 이를 이용해 깊이 정보까지 추정하는 앤드-투-앤드 기법을 세계 최초로 고안했다. 앤드-투-앤드는 알고리즘 입력과 출력 사이에 있는 모든 과정을 하나의 모델로 학습 및 추론하는 딥러닝 기법이다.

연구팀은 촬영한 초점 영상을 이미지상이 보이는 정도, 즉 화각을 메타데이터로 초점별로 계산한 뒤 초점 영상을 특정 화각에 맞게 잘라내 촬영한 모든 영상 화각을 같이 맞춰준 다음 AI 네트워크로 초점 영상을 추가로 정렬시켜 잘 정렬된 초점 영상을 최종 획득했다. 깊이 정보는 독일 뮌헨공대가 제공하는 공인 벤치마크에서 오차와 정확도를 측정하는 총 20개의 척도 가운데 17개에서 1위를 기록하고 다양한 카메라 및 환경 조건에서도 일관적으로 우수한 성능을 보였다.

전해곤 교수는 “기존에 수동적으로 해결했던 초점거리 영상 정렬과 깊이 정보 추정 알고리즘의 한계를 극복하는 AI 모델을 제안한 것”이라며 “AI 네트워크를 통해 얻은 깊이 정보를 활용하면 메타버스, 증강현실, 영상 기반 인지 탐지와 같은 응용 분야 발전에 기여할 것으로 기대한다“고 말했다.

로옴, Mazda와 차세대 반도체 사용한 자동차 부품 공동 개발

[로옴세미컨덕터코리아] 뉴스룸 바로가기>

전 교수(교신저자)와 GIST 석사·박사통합과정 원창연 씨(제1 저자)가 주도한 이번 연구는 과학기술정보통신부(연구개발특구)와 광주시 지원으로 GIST가 주관하는 'AI 기반 메타버스 구현을 위한 융·복합 문화 가상 스튜디오' 과제와 과학기술정보통신부 'AI 혁신 허브' 과제의 지원으로 이뤄졌다. AI·컴퓨터 비전 분야 세계 최고 학회인 '유럽 컴퓨터비전 콘퍼런스(ECCV)'에서 오는 10월 발표할 예정이다.

광주=김한식기자 hskim@etnews.com