[기고]승리를 부르는 타율 분석과 개인정보 유출 모니터링

가을 야구가 한창이다. 필자 개인으로 응원하는 팀이 5강에 들지 못해 아쉽지만 중계방송을 보다 보면 많은 야구 통계를 접한다. 타율, 출루율, 장타율 등은 익숙하지만 OPS, wOBA, WAR, ISO, RC, wRC 등은 생소하다. 흥미로운 점은 타율도 다양한 상황에 따라 현재 안타 가능성을 점친다.

예를 들면 홈·원정, 투수 유형(좌·우·언더), 득점권 주자 유·무, 타석별, 요일별, 구단별 등에 대한 타율 세부 정보를 활용한다. 이러한 정보로 감독은 대타를 기용하기도 하고, 히트앤드런 작전을 쓴다. 심지어는 투수를 교체하기도 하는 등 승리를 위한 효과 높은 경기 운영의 기초 자료로 활용한다.

ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

사이버 보안 분야도 엄청나게 발생하는 로그 정보를 통계 처리, 외부 해킹 위협과 내부 이상 행위를 예방할 수 있다. 특히 빅데이터 로그 분석 분야에서는 최근 프로파일링 기법을 통한 사용자 행위 분석 기반의 내부 정보 유출 탐지 시스템을 통계 정보를 활용, 구현한다.

프로파일링은 자료 수집이라는 말이다. 수사 용어로는 범죄유형분석법을 말한다. 범죄 현장을 분석해 범인의 습관, 나이, 성격, 직업, 범행 수법을 추론한 뒤 이를 바탕으로 찾아내는 수사 기법이다.

반면에 보안 분야에서 프로파일링은 분석 대상의 일반 행동 특성을 개인별로 수치화한다. 이와 일정 수준 이상 차이가 발생했을 때 타인에 의한 사기이거나 공격이거나 의도된 이상 행위로 간주, 범행 또는 공격을 찾아내는 보안 기법이다.

분석 대상은 회사 임직원, 네트워크 트래픽, 금융 계좌(또는 사용자), 원격 관리 대상 장비, 공장 설비 등이다. 행동 특성은 수집이 가능하고 프로파일링 목적에 부합하는 로그의 발생 트렌드 또는 평균값으로 구체화된다.

여기서 평균값이 프로 야구 타율과 비슷한 역할을 한다. 내부정보 유출 모니터링을 위해 특정 직원이 개인 정보가 포함된 문서를 하루에 몇 장이나 출력하는가에 대한 통계를 가정해 보자.

임직원 보직에 따라 늘 많은 양의 개인정보를 출력하는 임직원도 있고, 반대의 경우도 있다. 그런 특성을 반영하기 위해 본인의 개인정보 출력 평균값을 기준으로 이상 여부를 판단한다. 이러한 평균값이 프로파일링과 연관되는 것이다.

이상준 유넷시스템 CTO
이상준 유넷시스템 CTO

그런데 평균값은 주말에는 출력하는 일이 거의 없을 것이고, 휴가나 출장 또는 교육 같은 근태에도 영향을 받을 수 있다. 요일별 또는 월초인가 월말인가에 따라서도 특이한 패턴을 띤다. 프로야구의 타율과 같이 다양한 평균값을 구해야만 좀 더 정교한 분석이 가능하다.

실제로 금융사기방지시스템(FDS)에서는 평균 이체금액, 일일 이체 횟수, 주거래 지역 등을 데이터 마트에 저장한다. 이체 요청이 발생하면 각각의 평균값과 비교, 사기 여부를 판단한다.

그러나 초당 수만개의 로그를 처리해야 하는 빅데이터 로그 분석 분야에서도 평균값을 데이터 마트에 저장해 놓고 비교하는 것이 가능할 것인가는 의문이다. 물론 메모리 데이터베이스(DB)를 사용하면 되지 않겠느냐 하는 의견도 있겠지만 비용대비효과(ROI) 측면에서 적절한 해답은 아니다.

이런 관점에서 본다면 평균값에 영향을 미치는 여러 변수를 종합해서 분석할 수 있는 예측 알고리즘이 대안이다.

예측 알고리즘에서는 예측하고자 하는 값을 `종속변수`라 한다. 예측 값에 영향을 미치는 값은 `독립변수`다. 예를 들어 개인정보를 포함하는 문서를 출력하는 건수에 영향을 미치는 요인들을 `독립변수`, 예측하고자 하는 개인별 출력 건수를 `종속변수`로 각각 설명한다. 이와 같이 종속변수를 예측할 때 다양한 독립변수의 함수식으로 표현할 수 있다. 이러한 종속변수와 독립변수의 상관관계를 함수식으로 표현한 것을 `모델`이라 한다.

많은 양의 과거 정보가 축적돼야 의미 있는 예측 값을 계산해 낼 수 있는 것은 당연하다. 시간이 지날수록 점점 정교한 함수식으로 개선할 수 있다. 다만 적용 초기나 많은 양의 과거 정보가 없는 로그 등은 기존의 산술 평균값 또는 절대 임계치 등을 이용한 분석이 병행돼야 한다.

보안 관리자는 프로야구 감독과 같은 존재다. 다양하게 생성되는 개인별 프로파일링 정보를 이용해 정책을 설계하고, 실제 보안 사고 여부를 판단한다. 이상 행위에 대해 임직원에게 소명을 요청하고, 분석 시스템에 피드백을 제공한다. 정교하게 외부 보안 위협과 내부 이상 행위를 탐지하는 시스템으로 발전해 보안 사고로부터 조직을 지키는 효과 높은 경기를 할 수 있기 때문이다.

이상준 유넷시스템 연구소장(CTO) sjunee@unet.kr