'AI 후발주자 더 나와라'…데이터 곳간 개방한 뤼이드

'AI 후발주자 더 나와라'…데이터 곳간 개방한 뤼이드

뤼이드가 인공지능(AI) 생태계 구축에 나선다. 회사가 보유한 데이터베이스와 AI 기술을 외부에 공개한다.

31일 업계에 따르면 AI 튜터 솔루션 기업 뤼이드(대표 장영준)가 AI엔진 학습을 위해 수년간 축적해 온 객관식 시험 문제풀이 학습 데이터를 개방한다. 딥러닝 모듈 아키텍처인 트랜스포머 기반 정·오답 예측 모델 알고리즘도 함께 공개한다.

뤼이드는 AI 기술 기반으로 개발된 토익 학습 애플리케이션(앱) 산타토익 개발사다. 머신러닝을 기반으로 사용자가 틀릴 문제를 90% 이상 확률로 예측한다. 이번에 공개되는 데이터는 약 78만 학습자로부터 누적된 1억3000만건 학습 데이터다. 학습자 정·오답 예측에 활용할 수 있다. 딥러닝 모듈도 현재 뤼이드가 서비스 중인 AI 튜터와 같은 제품을 개발하고 고도화하는데 사용할 수 있다.

AI 연구는 복잡한 알고리즘과 정제된 디지털 학습데이터를 필요로 한다. 데이터 접근성을 높이는 것이 AI 인프라 구축 핵심 중 하나다. 이 때문에 해외에서는 이미 데이터 공개를 통한 AI 생태계 구축에 적극적이다. 스탠포드와 프린스턴 대학 연구진은 1500만장 이미지를 품은 대용량 데이터베이스 '이미지넷' 구축을 통해 이미지 식별 분야 AI 연구 수준을 획기적으로 끌어올렸다.

특히 이미지넷 데이터를 바탕으로 진행되는 이미지 식별대회 '이미지넷 챌린지'는 세계 비전 AI 기업 및 연구진이 필수 참여하는 행사로 자리 잡았다. 최근 UC버클리 로봇과학자들도 로봇 학습용 비디오 데이터베이스 '로보넷'을 구축해 이미지넷과 같은 데이터베이스 플랫폼으로 육성하겠다는 계획을 발표했다.

데이터만큼 머신러닝 소프트웨어 확보도 중요하다. 글로벌 IT 기업들은 자사 AI 개발 플랫폼을 개방하며 영향력을 확대하고 있다. 구글은 머신러닝 프레임워크인 '텐서플로' 소스를, 페이스북은 '토치' 기반으로 제작된 인공지능 모듈을 오픈소스로 2015년부터 공개하고 있다. 에어비앤비 역시 숙박업계에 특화된 머신러닝 소프트웨어 '에어로솔브'를 오픈소스로 선보였다. 국내에서는 삼성전자가 인공지능 플랫폼 '벨레스'를 오픈소스로 공개한 사례가 있다. 한국전자통신연구원(ETRI)은 시각 AI 기술 및 사물인식 학습 데이터 20만장을 누구나 접근할 수 있도록 개방했다. KT는 통신 빅데이터 플랫폼 센터를 구축했다. 이와 더불어 AI 기술 기반 스타트업도 주요 자산인 데이터를 공개하며 AI 활성화에 힘을 보태고 있다.

뤼이드는 학습 데이터를 공개하는 데이터베이스 '에드넷'을 구축해 교육 AI분야 '이미지넷'으로 키우겠다는 목표다. 매년 새로운 데이터를 업데이트하면서 플랫폼에서 알고리즘 경진 대회를 개최한다. 교육 AI에 대한 국내외 연구진 관심을 키우고 연구를 활성화할 방침이다. 데이터를 공개해도 기술적 우위를 유지할 수 있다는 자신감이다.

장영준 뤼이드 대표는 “교육 AI 분야에 더 훌륭한 연구진이 뛰어들고 경쟁력 있는 후발주자들이 많이 나오길 기대한다”며 “산업 전체 크기를 키우고, 건강한 경쟁을 통해 뤼이드가 더 성장하기 위한 전략적 결정”이라고 말했다.

이형두기자 dudu@etnews.com