[기획] NIA 'AI 허브 데이터' 날개 달고 비상하는 혁신 기업

인공지능(AI)은 산업과 일상에 널리 확산하고 있으며, 그 성능과 신뢰도는 양질의 데이터에 달려 있다. 과학기술정보통신부와 한국지능정보원(NIA)은 국내 최대 AI 학습용 데이터 플랫폼인 'AI 허브'를 운영, AI 산업의 성장을 지원하고 있다. 전자신문은 AI 허브를 활용해 우수한 서비스를 개발한 기업의 사례를 살펴본다. 〈편집자주〉



과학기술정보통신부와 한국지능정보원(NIA)은 학계, 연구계, 기업 등과 서비스 개발에 필요한 데이터 확보를 지원하는 데 힘쓰고 있다. 국내 최대 AI 학습용 데이터 제공 플랫폼 'AI 허브'를 통해 현재까지 총 833종 데이터를 개방했다.

AI 허브 데이터는 저작권과 개인정보 문제를 해결하고 전문 기관의 품질 평가를 거친 검증됐다. 대한민국 국민이면 누구나 AI 허브 홈페이지에서 데이터를 자유롭게 활용할 수 있다.

올해 8월 말 기준으로 AI 허브 데이터 활용 건수는 누적 약 58만건, 방문자는 340만명 이상이다. 중소기업·스타트업·학계·개인이 활용한 한국어 텍스트와 음성 데이터는 46만 건을 넘었다. 삼성·LG·네이버·SK·KT 등 빅테크 기업은 대규모 언어모델(LLM) 고도화와 AI 서비스 개발에 해당 데이터를 적극적으로 활용 중이다.

NIA가 지난해 12월 조사한 활용 사례에 따르면 AI 허브 데이터를 활용한 신규 서비스 개발은 998건, 논문 게재 및 발표 721건, 과제 수주 및 투자 유치 717건 등에 달했다.

실제 AI 허브 데이터를 활용해 우수한 서비스를 만든 국내 기업 중 대표 사례를 소개한다.



◇ 포티투마루

초거대 언어모델 'LLM42' 이미지 (시잔=포티투마루 제공)
초거대 언어모델 'LLM42' 이미지 (시잔=포티투마루 제공)

포티투마루는 사용자의 질의 의도를 심층적으로 파악해 방대한 비정형 데이터에서 '단 하나의 정답을 도출'하는 자연어처리 기반 질의응답(QA) 플랫폼을 개발·제공한다. 2017년부터 '인공지능 학습용 데이터 구축사업'에 참여해 왔다. 한국어 텍스트 기반의 기계 독해(MRC) 데이터와 요약문 생성 데이터 구축 등 사업 수행 경험을 바탕으로 올해도 NIA 과제를 진행 중이다.

포티투마루의 대표 서비스는 기업 특화형 초거대 언어모델 서비스인 'LLM42'다. LLM42는 검색 증강 생성(RAG) 솔루션인 RAG42와 연동해 AI 모델의 한계로 지적되는 환각 현상(Hallucination)을 99% 이상 제거한다. AI 허브 데이터가 제공하는 개인정보 비식별화, 민감정보 삭제, 비속어 처리 등 검증 과정을 거친 데이터는 LLM42의 신뢰성을 높이는 데 중요한 역할을 했다.

포티투마루는 NIA 인공지능 학습용 데이터 구축 사업을 통해 쌓은 데이터 구축 노하우와 AI 허브 데이터를 활용해 고도화한 기술력을 바탕으로 2018년 SQuAD 2.0 글로벌 기계 독해 경진대회에서 구글 AI 팀과 공동 1위를 기록했다. 마이크로소프트(MS)가 주관하는 언어 생성 경진대회(GLGE)에서는 Generative AI 요약 분야 리더보드 1위를 차지했다. 또한, ACL 논문 채택을 통해 학계에서도 주목받고 있다.

김동환 포티투마루 대표는 “초거대 생성형 AI 모델 시대가 본격화되며 AI 모델 개발을 위해서는 지역, 연령대, 주제 등의 측면에서 균형적이면서도 대규모의 신뢰성 있는 데이터가 필수적”이라고 설명했다. 김 대표는 “NIA에서 제공하는 AI 허브 데이터의 사용은 선택이 아닌 필수 자원이며, 신뢰성 높은 AI 허브의 데이터를 통해 품질에 대한 우려 없이 AI 모델 개발에 온전히 집중할 수 있었기에 성공적으로 서비스 개발을 마무리할 수 있었다”고 전했다.



◇ 인트플로우

'엣지팜(EdgeFarm)' 이미지 (사진=인트플로우 제공)
'엣지팜(EdgeFarm)' 이미지 (사진=인트플로우 제공)

인트플로우는 2019년 광주과학기술원 출신 전광명 대표가 설립한 AI 스타트업이다. 현재 일본, 베트남, 태국 등 다양한 해외 시장으로 확장하며 축산업의 디지털 전환을 선도하고 있다. 2022년 '인공지능 학습용 데이터 구축사업'에 참여해 성공적으로 사업을 수행한 바 있다.

인트플로우의 주력 서비스는 '엣지팜(EdgeFarm)'이다. 엣지팜은 비접촉 생체 정보 분석 기술로 카메라와 같은 비접촉 센서를 활용해 동물의 행동을 실시간 인식하고 상태를 예측한다. 주로 양돈장에서 효율적인 돼지 사육과 정밀한 사료 관리, 비접촉 무게 측정 등 농장의 운영 효율성을 극대화하는데 기여한다. AI 허브 데이터를 활용해 소와 돼지가 발정 시 보이는 독특한 행동과 울음 패턴을 데이터화하고, 영상 기반 발정 탐지 기술을 개발했다.

인트플로우는 혁신적인 기술력을 인정받아 지역 스타트업으로서 CES 2024에서 혁신상을 받았다.

안형준 인트플로우 AI 개발 팀장은 “양돈·축우 농가의 경우 방역 문제로 출입이 제한돼 데이터 수집이 어려웠으나, NIA에서 제공하는 AI 허브 데이터를 통해 이 문제를 해결할 수 있었다”며 “다양하고 방대한 AI 허브 데이터를 기반한 AI 모델 학습은 더욱 폭넓은 상황을 예측할 수 있었고, 기존 접근조차 어려웠던 정보를 비용 부담 없이 사용하여 서비스 개발과 제품 출시 시점을 크게 앞당기는 데 큰 도움이 됐다”라고 덧붙였다.



◇ 팀 베어러블

'마이폴리오(myfolio)' 이미지 (사진=팀 베어러블 제공)
'마이폴리오(myfolio)' 이미지 (사진=팀 베어러블 제공)

팀 베어러블은 전국 중·고등학생이 진로 탐색과 학업 역량 강화를 돕기 위해 2023년 설립한 스타트업이다. 생성형 AI 기반 서비스 '마이폴리오(myfolio)'는 교과 학습 내용 맞춤형 진로 탐색과 생활기록부 활동을 추천하며 포트폴리오 제작을 지원한다. 학생부 종합전형을 준비하는 학생에게 입시에 필요한 다양한 활동을 효율적으로 관리할 수 있는 생활기록부 로드맵을 제공한다. 또한 약 6만권에 달하는 도서 데이터를 분석해 학생 개개인에게 알맞은 맞춤형 전공 도서를 추천한다. 세특 작성을 위한 구체적인 가이드라인도 제공 중이다.

팀 베어러블은 경기도경제과학진흥원이 주관한 '2024 GenAI 공공데이터 창업경진대회'에서 최우수상을 받으며 가치를 공식적으로 인정받았다.

정수현 팀 베어러블 대표는 “관리형 생활기록부 원스톱 서비스 마이폴리오를 개발하는 데에는 AI 허브 데이터가 활용됐다”고 말했다. 이어 “생활기록부에 필요한 도서 줄거리와 요약 정보 서비스 개발에는 도서 데이터가 필수적이지만, 도서 줄거리 정보는 웹에서 구하더라도 토큰(token) 수가 제한되고 직접 구매하기에는 시간과 비용이 많이 들어 모델 학습에 어려움이 있었다”며 “줄거리와 요약문을 함께 제공하는 AI 허브의 도서 자료 요약 데이터를 발견하고 활용해 서비스 개발을 완성할 수 있었다”고 설명했다.

팀 베어러블 '마이폴리오'의 다음 목표는 '진로 상담 챗봇'이다. 진로 상담 서비스의 필요성을 알고 오픈채팅방 등을 통해 학생의 진로·진학 고민에 대한 채팅을 데이터로 수집했지만, 데이터의 양과 유형이 제한돼 한계가 있었다. 이 서비스 또한 AI 허브 데이터의 진로 상담 데이터를 통해 다양한 상담 샘플을 활용하고 부족한 데이터를 보완해 진로 상담 서비스를 개발 중이다.

AI 허브가 앞으로도 다양한 분야 데이터를 발굴하고, 지속적으로 AI 개발에 기반이 되는 데이터를 제공해 줄 것을 기대한다.

임중권 기자 lim9181@etnews.com