전자상거래 구매 데이터 압축률 50배↑...KAIST, 희소행렬 압축기술 '뉴크론' 개발

'희소행렬'에 해당하는 2억건 비디오 시청 내역을 10킬로바이트(KB) 크기로 압축하면서도 압축에 따른 정보손실은 대폭 줄일 수 있는 기술이 개발됐다.

한국과학기술원(KAIST·총장 이광형)은 신기정 김재철AI대학원 교수팀이 기존 대비 50배 이상 압축률이 우수한 희소행렬 압축 기술 '뉴크론'을 개발했다고 9일 밝혔다.

희소행렬은 행렬원소 상당수가 0인 행렬이다. 전자상거래 구매 내역, 소셜 네트워크 친구 관계, 문서·단어 간 포함관계 등 다양한 데이터에 활용한다.

희소 행렬을 이용한 실세계 데이터 표현 예시
희소 행렬을 이용한 실세계 데이터 표현 예시

일례로 전자상거래 구매 내역은 행렬 행이 구매자, 열이 상품, 원소는 상품구매 수량을 의미한다.

대규모 희소행렬을 효율적으로 다루려면 압축 기술이 필수다. 1억명 구매자와 상품으로 구성된 전자상거래 구매 내역은 1경개 원소를 갖기 때문이다.

연구팀은 희소행렬 압축률을 크게 개선했다. 데이터 내 '자기 유사성'에 착안한 결과다. 이는 대상 일부분을 확대해도 대상 전체와 닮은 패턴이 나타나는 성질이다.

뉴크론은 자기 유사 구조를 가질 수 있도록 행·열을 재배열하고, 행렬 각 원소를 위치수열로 인코딩한 후 각 위치수열을 입력으로 행렬 원소값을 추론하는 순환신경망을 학습하는 과정을 거친다.

뉴크론을 이용한 행렬 압축 과정 예시
뉴크론을 이용한 행렬 압축 과정 예시

뉴크론 기술은 희소행렬뿐 아니라 '희소텐서' 압축에도 적용할 수 있다. 행렬이 행과 열로 구성된 2차원 데이터라면, 텐서는 행렬을 3차원 이상으로 일반화한 것이다.

뉴크론은 기존 기술 대비 50배 이상 우수한 압축률을 보였다.

신기정 교수는 “다양한 실세계 데이터, AI 모델 매개변수가 희소행렬 형태로 표현된다”며 “희소행렬 압축 기술을 추천시스템, 이상 탐지, AI 모델 경량화 등 분야에 활용 가능할 것으로 기대한다”고 말했다.

한편 이번 연구에는 KAIST 김재철AI대학원의 권태형 박사과정, 고지훈 석박사통합과정이 공동 제1저자, 정진홍 전북대 교수가 공동 저자로 참여했다. 이번 연구는 오는 5월 미국 오스틴에서 열리는 미 컴퓨터협회 웹학술대회(ACM WWW)에서 발표될 예정이다.

정보통신기획평가원(IITP) 지원을 받은 '강건하고 공정하며 확장가능한 데이터 중심의 연속 학습과제'와 한국연구재단 지원을 받은 '부호화된 그래프 마이닝' 과제 성과다.

김영준기자 kyj85@etnews.com