소셜 BI, 소셜미디어의 감성을 분석하라 - 텍스트 분석의 비즈니스 가치

소셜 BI, 소셜미디어의 감성을 분석하라 - 텍스트 분석의 비즈니스 가치

자료에 따르면 회사가 보유한 데이터의 75% 이상이 이미지, 웹 문서, 표준 문서, 오디오, 비디오, 이메일, 콜센터 메모 등 비정형 데이터인 것으로 추정되고 있다. 이런 유형의 데이터는 놀라울 정도로 빠른 속도로 증가하고 있으며 소셜네트워킹서비스(SNS)로 인해 더 가속도가 붙고 있다.

기업의 마케팅 툴이자 내부 협업 툴로써 사용이 확산되고 있는 SNS는 비즈니스 인텔리전스(BI)에 새로운 도전과제가 되고 있다. `소셜 BI`의 기술 과제는 △비정형 텍스트를 분석하는 것 △비정형 텍스트에 실려 있는 감성을 분석해 내는 것 등 크게 두 가지로 나눌 수 있다.

텍스트 분석이란 말(텍스트)과 계산(분석)이라는 이해관계가 서로 다른 두 분야를 충돌시킴으로써 기업이 경쟁력을 확보할 수 있도록 도와주는 최신 기법을 일컫는 말이다.

텍스트 분석은 두 가지 주요 비즈니스 문제를 해결해 준다. 정보를 체계화해 문서 내에서 콘텐츠 검색을 용이하게 만든다. 또 텍스트 정보에서 트렌드와 패턴을 찾아내 미래에 대한 통찰을 얻을 수 있다.

◇텍스트 분석의 시작은 검색=조직이 보유한 문서에 담긴 콘텐츠는 비즈니스에서 도출된 지식을 의미하며 고객 및 공급업체 정보, 운영 정보, 그리고 오랫동안 축적한 노하우를 포함하고 있다. 사실, 견해, 토론, 지적 재산 등이 포함되기도 한다.

검색을 통해 문서의 속성에 관한 정보를 손쉽게 입수할 수 있으나 문서를 열지 않고 그 내용을 판단하는 것은 결코 쉬운 일이 아니다. 검색 엔진은 중요한 단어를 기초로 해서 인터넷 또는 기업을 검색하고, 찾는 단어와 장소의 색인을 작성하며, 또 사용자가 단어를 조회하여 색인에 포함된 단어와 대조할 수 있도록 하는 등 몇 가지 기본적인 작업을 수행한다.

많은 기업들은 내부에 초점을 맞춘 활동보다는 수익 창출, 매출규모 확대 및 대고객 서비스 개선을 위한 프로젝트에 더 우선순위를 두고 있다. 하지만 최근에 경제 불안이 심화되면서 노동자 생산성과 지식 보유 · 관리에 대한 관심이 다시 살아나고 있다. `기업이 보유한 정보 검색`이 대다수 조직의 최우선 사항 중 하나로 다시 부각되기 시작한 것이다.

워드 · 엑셀 · 파워포인트 · 이메일 · 텍스트 등 기업이 보유한 방대한 양의 비정형 데이터로부터 관련 정보를 보다 쉽게 검색해 업무에 활용할 수 있도록 프로세스를 구축해야 하는 상황이 되고 있다.

◇텍스트 분석의 프로세스=업무적 통찰력을 이끌어내기 위해 텍스트에 대한 분석을 수행하는 프로세스는 전통적인 데이터 유형을 분석하는 것과 유사하다. 먼저 문서를 탐색해야 한다. 단순히 문서 더미에서 의미 있는 단어를 카운트하는 형태일 수도 있고, 문서 샘플을 읽어 문서 분류를 위한 주제 영역을 수작업으로 생성하는 일이 될 수도 있다.

`최근의 자동차 보증 클레임에서 확인된 주요 문제의 유형은 무엇인가?`라는 탐색을 수행한다고 가정할 경우 이 과정에서 철자가 틀리거나 단축된 단어, 약어 따위가 발견될 수 있다. 고급 분석 또는 자동 분류에 앞서, 데이터 품질의 문제를 해결하고 표준화해 보다 정확한 분석 결과를 얻기 위해서는 텍스트를 사전에 처리해야 한다. 데이터 준비 단계에만 최대 80%의 시간이 소요될 수 있다.

잘못된 철자를 바로잡는 일 외에도, 데이터 준비의 상당 부분이 표준화, 즉 일관된 용어 세트로 변환하는 작업과 특정 개념을 파악하는 작업에 할애된다. 분석하고자 하는 업무의 특성이 반영된 개념을 정리하는 작업이 가장 큰 일 중의 하나이다.

문서 콘텐츠를 효과적으로 분류하는 작업은 텍스트에 포함된 단어의 의미를 개별적으로 그리고 문맥 속에서 파악하는 능력에 크게 좌우된다. 언어마다 독특한 뉘앙스가 있고 한 언어 내에서도 기업, 지역, 또는 기업 전반의 업무 영역별로 고유한 전문 용어가 존재하기 때문이다.

텍스트 분석은 문장을 형태소, 즉 명사, 조사, 부사, 동사원형 등 문법상 의미 최소 단위로 분해(파싱)해서 주어, 목적어, 부사, 동사 등의 언어학적 구조를 패턴화하여 문장의 의미를 파악하는 기법이다. 단순한 키워드 매칭과는 다르다. 특히 우리말은 끝까지 들어봐야 안다고 하듯이 단순 단어 매칭이 아닌 문장의 의미를 파악하는 것은 비정형 분석에 있어서 매우 중요하다.

문서 안에 포함된 정보를 토대로 문서를 분류하는 작업은 통계 모델과 비즈니스 규칙의 결합을 통해 이뤄질 수 있다. 전통적인 모델 개발 과정에서는 모델을 길들이기 위해 샘플 문서를 검토한다. 그런 다음 추가 문서를 처리해 모델의 정확성을 평가하고 마지막으로 최종 모델을 적용해서 새로운 문서를 평가한다. 이후에는 모델을 성과물에 투입해 새로 발생하는 문서를 자동으로 처리할 수 있고, 이어서 모델의 성과를 지속적으로 모니터링하는 것이 가능해진다.

◇텍스트 분석의 다른 면은 감성 분석=최근 기업들은 자사의 제품, 서비스 또는 브랜드 전반을 논할 때 사람들의 견해, 태도, 정서에 관해 좀 더 자세히 알고자 한다.

소비자들은 제조업체가 제작한 홍보 자료보다 다른 소비자의 의견을 훨씬 더 신뢰하는 것으로 조사되고 있다. 기업 입장에서 자사 제품과 서비스에 관한 세간의 평판을 듣고 분석하는 일은 소비자와 대화의 문을 여는 첫 단계다. 최근 화두가 되고 있는 트위터가 대표적인 예다.

이러한 대화 기법은 표적 마케팅 이니셔티브를 기존 고객과 잠재 고객에게 효과적으로 전달함으로써 전통적인 마케팅에 비해 훨씬 낮은 비용으로 그리고 보다 빠르고 효과적으로 의사소통을 할 수 있게 해준다. 고객 문제와 경쟁의 위협에 더 신속히 대응할 수 있는 장점도 있다.

제품과 서비스 평판을 파악하는 `감성 분석`은 인간이 정의한 비즈니스 규칙과 컴퓨터가 생성한 통계 모델을 모두 활용해 비정형 텍스트에 표현된 긍정적 · 부정적 감정을 자동으로 파악한다.

즉, 텍스트의 문맥에서 키워드를 식별해 긍정적 · 부정적 개념을 분류한다. 텍스트에는 가령 `화가 나다`나 `속상하다`처럼 기분이나 감정을 명확히 나타내는 단어가 포함될 수 있고, `비명을 지르다`나 `펄쩍 뛰다` 같은 동작 단어를 토대로 태도와 감정을 추론할 수도 있다.

어떤 단어의 경우에는 제품 특성 또는 서비스와 연계시키지 않으면 그 의미를 제대로 파악할 수 없는 경우도 있다. 가령 컴퓨터와 관련한 문맥에서 `긴` 배터리 수명은 긍정적이지만, `긴` 부팅 시간은 부정적 성격을 띤다.

감성 분석의 초기 단계는 피드백의 긍정적 · 부정적 차원을 분류하고 특정 제품, 특성 또는 서비스에 대한 긍정적 또는 부정적 반응 정도를 파악하는 것으로 시작할 수 있다. 장기간에 걸친 감성을 추적해 트렌드와 패턴을 파악하거나 자사 제품에 대한 감성을 경쟁 제품에 대한 감성과 비교 분석해볼 수도 있다.

사실에 입각한 의사결정을 중시하는 비즈니스 리더들은 마케팅, 고객 서비스, 홍보, 제품 혁신 및 경쟁에 대한 통찰을 부여하는 잠재력이 텍스트에 숨겨져 있다는 사실을 잘 알고 있다. 음성과 동영상을 비롯한 비구조화 콘텐츠를 분석하는 기법은 단지 연구 논문의 주제로만 머물지 않고 분명 가까운 미래에 상업적 활용이 가능하게 될 것이다.

텍스트와 분석. 이 두 세계는 이미 충돌을 시작했다. 현명한 의사결정자라면 이를 통해 전례 없는 최고의 성과를 거둘 수 있는 절호의 기회를 잡게 될 것이다.

이광열 SA641S코리아 PSD본부 SMA/TA팀 이사 Kwang-youl.lee@sas.com