# ㅋ과 ㅠ는 텍스트 메시지에서 가장 많이 사용하는 기호다. ㅋ은 남자가 여자에 비해 16.4% 많이 사용한다. ㅠ는 여자가 남자에 비해 28.9% 많이 사용하는 것으로 나타났다. 자세히 살펴보면 ㅋ은 남자와 여자 공통적으로 친한 사람과의 대화에서 출현 빈도가 15%가 낮아졌다. 가까운 관계기 때문에 예의를 차릴 필요가 없는 것이다. ㅠ는 남성의 관심 있는 그룹에서 사용빈도가 32% 늘었고, 여성은 21%가 늘었다. 애교의 표식이라는 방증이다.
카카오톡 대화를 바탕으로 상대방의 의중을 분석하는 `텍스트앳(TEXTAT)` 서비스가 화제다. 모바일 사용자 10만명의 실제 대화 6억건의 데이터베이스를 감정 분석에 이용한, 이른바 `빅데이터` 서비스다. 위에 예시로 들었던 패턴들이 텍스트앳 서비스의 기반이 되는 셈이다. 최근 정치, 마케팅 분야에서 빅데이터 분석이 각광을 받고 있는 가운데, 이를 감정과 관계를 분석하는 알고리즘으로 사용되는 것은 처음 있는 일이라 주목된다.
2일 텍스트앳 개발사 스캐터랩은 이용자가 분석하고 싶은 상대방을 설정하고, 그 사람과 주고받은 카카오톡 대화를 텍스트앳에 넣으면 간단히 사용할 수 있다고 밝혔다. 애정도, 호감도, 친밀도와 같은 감정은 물론이고 일자별 감정변화, 감정이 높게 나온 메시지, 자주 쓰는 말투 등을 정교하게 분석할 수 있다. 텍스트앳 애플리케이션은 애플 앱스토어나 구글 플레이 스토어 등에서 내려 받으면 된다.
주목할 만한 점은 텍스트앳이 자체적으로 개발한 감정분석 모델 `STEAM(Statistics-based Text Emotion Analysis Model)` 기술이다. 감정에 따라 미묘하게 변하는 수천개의 변수를 잡아내는 것은 쉽지 않다. STEAM은 개인에 따라 의미 없이 나타나는 변화를 소음(noise)으로 규정하고 감정에 따라 공통적으로 드러나는 변화를 신호(signal)라고 규정한다. 이 중에서 최대한 소음을 걸러내고 신호를 정확하게 포착해 분석하는 것이다.
예를 들어 성별, 나이, 연인 여부와 같이 대화의 기본 패턴에 영향을 줄 수 있는 감정 이외의 변수를 통제해 비슷한 대화 패턴을 가지고 있는 사람을 하나로 묶고, 이용자가 주고받은 대화를 맥락(context)별로 분류해 비슷한 상황에서 주고받은 대화를 세부 그룹으로 분류한다. 이 과정을 거치면 비슷한 상황에서 감정에 따라 대화가 어떻게 달라지는지 명확하게 알 수 있다.
STEAM은 기계 학습(Machine Learning) 알고리듬 기능도 있어 이용자가 새로운 데이터를 입력할 경우, 이를 다시 학습해 모델을 업데이트한다. 이용자가 많아질수록, 데이터가 늘어날수록 분석의 정확도가 올라가는 구조인 것이다. 현재 STEAM은 기술적 가치를 인정받아 중소기업청 예비기술창업자 지원사업에 선정됐으며 서울시 특허지원사업에 선정되어 `사적텍스트를 통한 감정분석 방법`이라는 이름으로 특허출원을 마친 상태다.
김종윤 스캐터랩 대표는 “상대방과 대화를 분석하면 나에 대한 애정도, 호감도, 친밀도 등을 수치화할 수 있다”며 “텍스트앳은 인간 사이에서 주고받는 수천개의 신호와 그 신호 사이의 비중, 연관 관계 등의 집약체”라고 말했다.
[표] 스캐터랩 회사 개요
허정윤기자 jyhur@etnews.com