[대선D-1년]대선주자 빅데이터 조사 어떻게 이뤄졌나

이번 조사는 전자신문과 입법빅데이터 분석기업 폴메트릭스가 함께 올해 1월 25일부터 2월 21일까지 약 한 달간 54개 미디어에서 생산된 기사 3543꼭지와 유튜브 댓글 9만7551개를 기반으로 진행했다.

대선주자 5인은 '대선' 키워드 검색시 연관인물 상위로 선정했고, 현재 서울시장 후보로 나선 인물들은 대상에서 제외했다. 연관 키워드에서 의미가 불명확한 한글자 데이터도 제외했다.

미디어 콘텐츠 수집은 한국언론진흥재단 빅카인즈 시스템을, 유튜브 콘텐츠 수집은 유튜브 데이터 API를 활용했다.

기사와 유튜브 댓글 데이터는 긍정, 부정, 중립으로 코딩했다. 전체 데이터의 약 20%를 라벨링한 후 머신러닝 기법으로 전체 데이터를 분류했다. 해당 대선주자에게 유리한 기사이거나 그를 명백하게 옹호하는 내용의 댓글인 경우 긍정, 대선주자에게 불리한 기사, 그를 공격하는 댓글 등은 부정, 중립적이거나 무관한 내용은 중립으로 처리했다. 속해있는 진영에 대한 의견도 긍정, 부정 의견에 포함했다.

유튜브 댓글은 데이터 API 각 대선주자별로 하루 최대 50건의 영상을 수집, 댓글은 영상별로 모두 수집했다.

워드클라우드 및 빈도 데이터 추출 시 각 대선주자별로 해당 대선주자 이름이나 직함은 불용어처리했다.

조정형기자 jenie@etnews.com