솔트룩스와 국립국어원이 2020 일상대화 말뭉치 구축 사업에 착수했다. 사투리를 포함한 일상 언어를 인공지능(AI)에 활용 가능한 데이터로 만든다. 대화형 AI 산업 기반을 마련하는 데 기여할 것으로 기대된다.
사업을 주관하는 솔트룩스는 약 2000명 대화를 수집해 고품질 AI 데이터로 구축한다. 초기 단계에는 대화형 AI 전문가가 참여해 어떤 대화를 수집할지 주제를 정한다.
대화형 AI란 사람과 유사한 수준에서 대화가 가능한 AI를 말한다. 말뭉치 데이터가 주로 쓰일 분야다. 대화 수집 시 방송에서 쓰이는 표준어보다 실제 지역색이 그대로 묻은 대화에 비중을 둔다.
수집한 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서 속기 전문기업 '소리자바'와 협력한다. 텍스트 자료는 AI에 활용 가능한 데이터 파일로 가공되며 메타 정보가 함께 담긴다. 솔트룩스는 말뭉치 데이터를 활용할 수 있는 음성 인식 기능을 함께 제공한다.
말뭉치 데이터는 AI 서비스 개발 과정에서 학습 데이터로 활용될 수 있다. AI에게 사람 말을 학습시키려면 기계어 형식 학습 데이터를 만들어야 한다. 국립국어원에서는 이를 위한 기초 데이터를 만들어 AI 연구개발에 힘쓴다.
이경일 솔트룩스 대표는 “세계 대화형 AI 시장에 비해 국내 시장은 음성 말뭉치가 부족해 기술 개발, 서비스화가 더디게 발전했다”면서 “이번 사업을 통해 대화형 AI 산업 기반을 마련하고 다양한 AI 서비스와 데이터 생태계를 조성할 것”이라고 말했다.
오다인기자 ohdain@etnews.com