화제가 된 유튜브 동영상에는 이런 댓글이 달리고는 한다. “알고리즘이 나를 여기로 이끌었습니다.” 유튜브에는 사용자에게 동영상을 추천하는 알고리즘, 즉 일종의 규칙이 있는데, 이것이 사람들을 유튜브에 중독되게 하는 핵심이다. 유튜브 시청자는 알고리즘이 추천하는 동영상을 보는 성향이 강하기 때문이다. 유튜브 알고리즘에 선택을 받은 동영상은 속된 말로 대박이 난다. 그렇기에 유튜버나 기업은 알고리즘이 어떻게 작동하는지 연구하고 또 연구해 동영상을 만든다.
그러나 그게 말처럼 쉽지 않다. 일단 유튜브는 추천 알고리즘을 외부에 공개하지 않는다. 게다가 늘 똑같은 알고리즘을 사용g하는 것도 아니고 시대에 따라 알고리즘은 변해왔다. 그럼에도 구글 엔지니어들은 유튜브의 추천 알고리즘을 개선하는 논문을 내고 있기 때문에 어떤 방식으로 작동하는지 추측할 수 있다. 함께 알아보자.
◇유튜브 알고리즘의 변천 역사
유튜브가 서비스를 개시하고 처음으로 동영상이 업로드된 것은 2005년이다. 2005년부터 대략 2012년까지는 단순한 알고리즘으로 동영상을 추천한 것으로 보인다. 바로 조회 수와 시청 시간이다. 조회 수는 시청자가 많이 보는 동영상이 그만큼 재미있고 유익할 것이라는 전제를 바탕으로 한다. 문제는 이 전제가 늘 옳지 않다는 것이다. 동영상을 올리는 사람들이 자극적인 제목을 쓰거나 제목과 어울리지 않는 일명 낚시성 동영상을 올려 얼마든지 조회 수만 늘릴 수 있기 때문이다. 제목과 미리보기 이미지인 섬네일에 이끌려 영상을 재생한 시청자는 조악한 영상을 보고 실망을 느꼈다. 조회 수 추천 방식을 계속 사용한다면 유튜브 사용자는 급감할 것이 뻔했다.
그래서 대안으로 등장한 알고리즘이 바로 시청 시간이다. 어떤 동영상에 시청 시간이 길다는 것은 그 동영상이 시청자들이 원하고 보고 싶어하는 동영상일 확률이 높다. 이때부터 유튜브는 크리에이터들에게 동영상을 짧게 하거나 제목을 자극적이게 하는 식으로 알고리즘에 맞추려 하지 말고 시청자들이 원하는 콘텐츠를 만드는 게 도움이 된다고 조언하기도 했다.
2016년부터는 인공지능(AI) 기술의 발달로 유튜브는 비로소 머신러닝을 이용한 알고리즘을 도입했다. 머신러닝은 기계학습이라는 우리말 뜻 그대로 사람이 규칙을 집어 넣는 것이 아니라 컴퓨터가 스스로 규칙을 형성해 데이터를 분류하거나 값을 예측하도록 만드는 것이다. 머신러닝에는 크게 지도 학습과 비 지도 학습이 있는데, 지도 학습이란 입력값과 정답을 주어 기계를 학습시키고 미래의 값을 예측하도록 한다. 비 지도 학습은 입력값만으로 컴퓨터 스스로 학습을 통해 패턴이나 특성을 찾아내 예측하도록 한다.
유튜브는 알고리즘에 머신러닝을 사용한다고 밝혔으나 구체적으로 어떤 방식으로 머신러닝 추천 알고리즘이 동작하는지 알려주지는 않았다. 연구자들이 유튜브 추천 알고리즘을 분석한 결과를 종합해보면 우선순위로 추천하는 영상에는 다수의 입력값이 들어가는 것으로 보인다. 예를 들면 전통적인 조회 수와 시청 시간이 있고 그 다음으로 조회 수 증가 속도, 좋아요 싫어요 댓글 공유 같은 시청자의 참여도, 참신성, 채널 내 영상 업로드 빈도, 지역 등이 있다. 세션 시간이라는 입력값도 있는데, 이는 영상을 시청한 채널 내에 있는 다른 영상을 시청하는 시간을 말한다. 또한 여기서 그치지 않고 시청자의 개인적 선호도까지 분석해 해당 시청자가 선호하는 영상 주제와 과거 시청 데이터를 분석한다. 유튜브 추천 알고리즘은 이 모든 입력값들을 고려해 최종적으로 시청자 한 개인에게 딱 맞는 추천 영상 목록을 만들어 낸다.
◇유튜브 알고리즘의 선택을 받는 방법
한국언론진흥재단이 펴낸 '유튜브 추천 알고리즘과 저널리즘'이라는 보고서는 서울대와 KAIST 공학 전문가들의 도움을 받아 문재인 대통령, 방탄소년단, 유시민, 홍준표, 조국이라는 5개 키워드를 대상으로 일주일간 수집한 33만4425개 추천 목록을 분석해 유튜브 추천 알고리즘의 경향을 파악하기도 했다.
그 결과 유튜브 알고리즘은 방송사가 제공하는 영상, 제목이 길거나 제목 안에 주요 키워드가 많은 영상, 생중계 영상을 선호하는 것으로 나타났다. 게다가 보고서는 유튜브 알고리즘이 특정 기간에 특정 이슈 영상을 집중적으로 추천하는 경향을 발견했고, 유튜브 시청자의 시청 시간 중 70%가 추천된 영상을 본 시간임을 알아냈다.
또 보고서는 내 동영상이 알고리즘의 선택을 받으려면 어떤 측면을 체크하는 것이 좋은지도 선별했다. 첫째, 직접 제작한 섬네일이 성과가 높다. 둘째, 제목과 설명문이 겹쳐야 최적화에 유리하다. 셋째, 채널의 첫 영상은 안내 영상으로 1~3분 정도 분량이 좋다. 넷째, 태그는 토픽과 관련 있는 인기 키워드로 최대 10개를 넘기지 않는다. 다섯째, 라이브의 경우 종료 후 하이라이트를 제공해야 한다.
유튜브 알고리즘에 선택되려면 고려해야 할 게 한두 가지가 아니다. 그만큼 개인 맞춤 콘텐츠 추천이 고도화돼 있다는 말이다. 오늘도 시청자들의 눈을 사로잡기 위해 애쓰는 크리에이터들에게 존경을 표한다.
글: 이형석 과학칼럼니스트