음원 시장 '생성형 AI' 10년 뒤 11배 볼륨 키운다

작년 2900억→2032년 3.4조
작곡·작사·보컬 영역 무궁무진
아직 시장 주도 게임체인저 없어
메타·오픈AI·구글 등 선점 노력
국내 포자랩스·가우디오랩 각광

음원 시장이 생성형 인공지능(AI) 기술 격전지로 떠오르고 있다. 동영상 콘텐츠 확산으로 배경음악 수요가 커지고 있어 생성형 AI 기술을 빠르게 수익화할 수 있는 시장으로 꼽힌다. 7일 서울 강남구 가우디오랩의 소리실험실 비자림에서 직원들이 AI가 생성한 소리를 테스트하고 있다.
 박지호기자 jihopress@etnews.com
음원 시장이 생성형 인공지능(AI) 기술 격전지로 떠오르고 있다. 동영상 콘텐츠 확산으로 배경음악 수요가 커지고 있어 생성형 AI 기술을 빠르게 수익화할 수 있는 시장으로 꼽힌다. 7일 서울 강남구 가우디오랩의 소리실험실 비자림에서 직원들이 AI가 생성한 소리를 테스트하고 있다. 박지호기자 jihopress@etnews.com
관련 통계자료 다운로드 세계 음악 생성형 AI 시장 전망

음원 시장이 생성 인공지능(AI) 기술의 새로운 격전지로 떠오르고 있다. 작곡, 작사, 보컬, 샘플 생성, 믹싱, 마스터링, 가상 악기 등 음악 업계에서 AI 기술이 침투할 영역은 무궁무진하기 때문이다.

생성형 인공지능을 활용해 음악을 만드는 시대가 성큼 다가오면서 'AI 음원' 시장을 선점하려는 국내외 기업들의 발걸음도 빨라지고 있다. 시장분석업체 마켓닷어스에 따르면 세계 음악 생성AI 시장 규모는 지난해 2억2900만달러(약 2900억원)에서 10년 뒤인 2032년 26억6000만달러(약 3조3800억원)로 11배 이상 성장할 전망이다.

세계 음악 생성형 AI 시장 전망
세계 음악 생성형 AI 시장 전망

7일 업계에 따르면 메타와 오픈AI, 구글, 바이트댄스(틱톡) 등 글로벌 빅테크들이 음원 생성 AI 시장 선점을 위해 노력 중이다. 텍스트·이미지 생성 AI 시장에 비해 음원 부문은 아직 '게임체인저'로 불릴 만한 대표 주자가 없다는 게 업계 설명이다. 실제 오픈AI의 챗GPT는 텍스트 생성 AI 시장에 중점을 둔다. 달리2·미드저니의 경우 이미지 생성 AI 시장을 장악해가고 있다.

업계 관계자는 “전세계 음반 시장은 올해 기준 34조에 달하는데, 이는 음반 시장에 한정한 수치로 공연, 팬 비즈니스, 머천다이즈 등 부가 가치 수입을 더하면 시장 규모는 상상을 초월한다”고 말했다.

구글이 음원 생성 AI '뮤직LM'을 선보인 데 이어 메타도 최근 자유자재로 음향 효과와 음악을 생성할 수 있는 도구를 출시했다. 최근 메타는 음원 생성 AI '오디오크래프트'를 출시했다. 오디오크래프트는 뮤직젠(MusicGen), 오디오젠(AudioGen), 엔코덱(EnCodec) 세 가지로 구성됐다.

뮤직젠은 음악 생성 AI로 악보나 악기 등에 대한 전문지식 없이 음악을 만드는 작곡에 활용할 수 있다. 라이선스 받은 음악을 학습했다. 오디오젠은 공개된 음향 효과를 기반으로 학습한 AI로 소리를 생성한다. 다양한 음향 효과로 활용 가능하다. 엔코덱은 잡음을 제거해 고품질의 음악을 생성할 수 있는 생성 AI다.

메타 '오디오크래프트'
메타 '오디오크래프트'

국내에서는 포자랩스, 가우디오랩 등이 각광받고 있다. 포자랩스는 게임·광고·드라마 등에 쓰이는 맞춤형 음원을 만들 수 있는 AI 음원 생성 기술을 개발했다. 구글 '뮤직LM'과 메타 '오디오크래프트'와 달리 편곡·수정이 가능하다는 게 차별점이다.

포자랩스 관계자는 “구글 뮤직LM과 메타 오디오크래프트가 만들어낸 최종 결과물은 wav 포맷 오디오로, 문서로 예를 들면 수정이 불가능한 PDF 파일”이라며 “포자랩스가 만들어낸 최종 결과물은 midi 파일 오디오로, 수정이 가능한 doc. 파일인 셈”이라고 설명했다.

가우디오랩 소리 생성 AI인 '폴리(FALL-E)'는 텍스트·이미지 입력에 대응되는 소리를 생성한다. 특히 가상현실을 구현하는 과정에서 효과음 및 배경음 등으로 활용될 수 있다.

가우디오랩 관계자는 “폴리는 녹음된 샘플 라이브러리에서 검색하는 형식이 아니라 상황에 맞게 직접 생성하기 때문에 맥락에 맞는 풍부한 사운드를 만들어 낸다”며 “메타버스와 같은 사용자 개방 환경에서 '마치 현실과 같은 소리'를 제공해 사용자의 몰입감을 최대로 끌어올린다”고 소개했다.

권혜미 기자 hyeming@etnews.com