빅데이터·인공지능(AI) 전문 기업 비투엔은 AI 학습용 데이터 품질관리 솔루션 'SDQ for AI V2.0'을 출품했다.
SDQ for AI는 비정형 데이터에 대한 품질 검증을 통해 양질 데이터 세트 구축과 라벨링 정확도 향상을 지원한다. 모든 품질관리 업무를 한 번에 이용할 수 있으며, 국내에서 유일하게 구문적 정확성과 통계적 다양성 지표를 통한 품질검사를 제공한다.
비투엔은 빅데이터·AI 영역 데이터 설계, 활용, 분석에 이르는 전 과정에 걸쳐 컨설팅과 솔루션, 플랫폼을 제공하는 기업이다. 다년간 쌓아온 데이터 통합 역량과 데이터 거버넌스 기술력으로 공공사업을 통해 정부의 디지털화를 이끌고 있다.
SDQ for AI는 지난해 등록된 '어노테이션 자동 진단 시스템 기술 특허'(국제 특허 출원) 기반으로 개발됐다. 추가 등록된 '어노테이션 변환 장치 및 그 제어 방법' 특허와 '검사 규칙 변환 장치 및 그 제어 방법' 특허 출원, GS 인증 1등급 획득을 통해 제품의 우수성을 인증받았다.
2020년부터 2년간 디지털 뉴딜 '인공지능 학습용 데이터 구축 지원 사업'에서 180여개 컨소시엄의 360종 9728GB 데이터 품질 검증을 완료했다. 특히 음성·자연어, 비전, 헬스케어, 자율주행 등 다양한 분야 학습용 데이터에 대한 품질 검사를 지원함으로써 서비스 범용성과 안정성, 기술 경쟁력을 입증했다.
주요 기능은 △데이터 수집 △규칙 △수행 △결과 등 4개다. AWS S3, 네이버 클라우드, NHN 클라우드와 연동을 통해 데이터 이관 없이 검사 대상 수집이 가능하며, 글로벌 표준 JSON 스키마 기반 검사 규칙과 종합 결과 리포트를 자동 생성할 수 있다.
사용자 편의성 향상을 위해 그래픽 사용자 인터페이스(GUI) 기반 설정 방식을 적용해 개발자가 아니어도 편리하게 비정형 데이터에 대한 품질 관리가 가능하도록 했다. 이 외에도 500만개 이상 파일로 구성된 대량 학습 데이터에 대한 빠른 검사가 가능하다.
SDQ for AI는 한국지능정보사회진흥원(NIA) 품질 관리 가이드라인에 정의된 구문적 정확성 검사 세 가지 세부 지표(데이터 구조, 입력 값 범위, 데이터 형식)와 더불어 어노테이션 파일 완전성까지 총 4개 검사 항목을 단 하나 검사 규칙으로 진단이 가능하다.
데이터의 편향성을 방지하기 위해 클래스 및 인스턴트 분포도, 문장 길이, 어휘 개수 등 측정을 통해 '통계적 다양성' 검사를 수행할 수 있다.
조광원 비투엔 대표는 “목적에 맞춰 자유롭게 활용할 수 있는 라이선스 제공을 위해 올해 초 SDQ for AI를 서비스형 소프트웨어(SaaS) 버전으로도 출시했다”면서 “다국어 서비스 지원 등 현지화 전략과 더불어 최근 글로벌 기업과 온라인 비즈니스 미팅을 통해 글로벌 진출을 본격화하고 있다”고 말했다.
권혜미기자 hyeming@etnews.com