10년만에 새 국산 백신 엔진 등장… 차세대 AI 안티바이러스 나온다

악성코드와 관련 메타 데이터를 학습해 탐지율을 끌어올리는 차세대 백신(안티바이러스) 엔진이 개발됐다. 순수 국내 기술로 만든 머신러닝 기반 인공지능(AI) 악성코드 탐지 시스템이다. 새로운 국산 백신 엔진 등장은 2007년 발표된 알약 이후 10여년 만이다.

세인트시큐리티(대표 김기홍)는 자체 확보한 방대한 악성코드 데이터와 AI 기술을 이용한 차세대 안티바이러스 엔진 `맥스 AI` 개발을 완료했다고 11일 밝혔다. AV-테스트 등 글로벌 보안 제품 평가업체가 성능 검증 중이다. 내년 1월 개인용 무료버전과 AI 분석 엔진을 함께 제공하는 기업용 제품을 출시한다.

맥스 AI 평균 탐지율은 95%다. 잦은 패턴 업데이트와 많은 시스템 자원을 소모하는 기존 안티바이러스를 상회하는 성능이다.

세인트시큐리티 맥스AI와 기존 안티바이러스 백신 제품 탐지율 비교(자료:세인트시큐리티)
세인트시큐리티 맥스AI와 기존 안티바이러스 백신 제품 탐지율 비교(자료:세인트시큐리티)

하루 100만개 이상 악성코드가 수집되는 클라우드 기반 악성코드 자동분석 플랫폼 `멀웨어스닷컴` 데이터를 악성코드 탐지 학습에 활용했다. 멀웨어스닷컴에 누적된 악성코드 샘플 데이터는 6억3000만개에 달한다.

세인트시큐리티가 구축한 악성코드 머신러닝은 우선 전체 연결된 신경망에 고정값(Fixed size) 데이터셋을 입력하고 악성 여부만을 판별한다. 결과값을 비율로 바꾸는 작업 후 이를 AI 점수(AI score)로 제공한다. 탐지율을 좌우하는 데이터셋 정확도를 높이기 위해 여러 피처 학습결과를 비교하며 최적 피처를 찾는 과정을 반복한다.

세인트시큐리티 머신러닝 코어
세인트시큐리티 머신러닝 코어

악성바이러스, 웜, 백도어, 스파이웨어, 랜섬웨어, 개인정보 탈취 등 종류 별로 악성코드를 모델링했다. 대표 악성코드를 50만개씩 추출, 모델링 그룹별로 학습과정을 거친다. 바이러스 탐지 결과를 기반으로 신경망에 재학습 반복과정도 추가한다. 일종의 오답노트다.

김기홍 세인트시큐리티 대표는 “패턴 기반 탐지 기술을 사용하는 기존 유명 안티바이러스 솔루션과 비교 검증한 결과 뒤처지지 않는 탐지 성능을 보였다”며 “데이터셋 구성이 비교적 단순한 랜섬웨어와 파밍류 악성코드는 50만개 정도 학습 시키자 빠짐없이 잡아냈다”고 말했다.

기업용 제품에 포함되는 AI 분석 엔진을 활용하면 기업별 환경 맞춤형 안티바이러스 엔진으로 발전한다. 해당 기업에서 자주 발견되는 악성코드 유형과 유입 과정을 지속 학습해 설치기간이 길어질수록 탐지율이 향상된다.

김기홍 세인트시큐리티 대표(전자신문DB)
김기홍 세인트시큐리티 대표(전자신문DB)

아직 1세대 제품인 만큼 한계점도 분명히 밝혔다. 높은 과탐률이다. 특히 국내 환경에서는 사용자 상호작용 없이 바로 실행되는 다양한 인터넷 뱅킹용 보안 솔루션이 자주 악성코드로 탐지된다. 보안 솔루션이지만 PC 이용에 불편함을 느낀 사용자가 악성코드라고 남긴 평판이 학습에 반영되기 때문이다. 산업적 특성과 사회 환경적 요소를 고려한 AI 학습 강화로 개선할 계획이다.

김 대표는 “악성코드 99개를 막아도 1개가 뚫리면 결국 피해로 이어진다”며 “나머지 1개를 막는 확률을 높이기 위해 기존 안티바이러스와 병행해 가볍고 운영이 편리한 차세대 AI 안티바이러스를 교차검증용으로 설치하는 것이 효과적”이라고 강조했다.

박정은기자 jepark@etnews.com