블로그 연구소
블로그 연구소
C-rank 알고리즘과 DIA로직
  • 작성자 블로그동스쿨
  • 좋아요 11
  • 조회수 193


C-rank 알고리즘과 DIA로직이란?


네이버에서는 정보 사용자가 조금 더 양질의 정보를 얻을 수 있도록 여러 차례 블로그 검색 알고리즘을 변화 시켜 왔는데요. 오늘 소개 할 C-rank알고리즘을 적용하기 전에는 ‘리브라’라는 알고리즘을 적용했다고 합니다. 리브라 알고리즘에서는 주제와 상관 없이 일정 기간 동안 ‘꾸준하게’ 포스팅을 하면 최적화 블로그가 될 수 있었습니다. 하지만 2016년 말, C-rank가 도입된 이후로는 이런 방법으로는 상위 노출이 되는 블로그를 만들어 낼 수 없습니다.


그렇다면 과연 네이버에서 도입했다는 C-rank알고리즘이란 무엇일까요?


1.C-rank 알고리즘이란?


[사진 1] C-rank의 구성요소 맥락, 내용, 연쇄반응


네이버는 ‘신뢰할 수 있는 출처에서 신뢰할 수 있는 정보가 나온다’라는 생각을 가지고 C-rank 알고리즘을 만들어 냈습니다. 그렇기 때문에 C-rank알고리즘에서는 검색을 했을 때 노출되는 포스팅을 작성한 블로그 자체의 신뢰도를 평가합니다. C-rank 알고리즘에서는 총 세 가지 요소로 블로그를 평가하는데요. 세 가지 요소는 다음과 같습니다.


(1) 맥락
(2) 내용
(3) 연쇄 반응


맥락이란, 블로그의 주제별 관심사의 집중도에 관한 이야기입니다. 얼마나 해당 블로그가 다루고자 하는 주제에 대한 콘텐츠를 생산해내는가에 대한 것이고, 내용이란 그렇게 생산된 컨텐츠가 얼마나 좋은 품질을 갖추고 있는지에 대한 이야기입니다. 그리고 마지막은 연쇄 반응입니다. 연쇄 반응은 그림에서는 연결된 소비와 생산으로 작성 되어 있는데요. 그 컨텐츠를 보고 네이버의 다른 이용자들이 어떻게 반응을 했는지, 혹은 소비로 이루어지는지 등을 판단합니다.
결국 C-rank에서 강조하는 것은 ‘전문성 있는 정보’ 그리고 ‘꾸준함’ 이라고 정리 할 수 있겠습니다.


기존의 검색 시스템인 리브라에서는 단순히 포스팅의 품질이나 블로그 방문자의 반응 그리고 유사 문서가 있는지 만을 판단해서 블로그 검색 순위를 결정했다고 합니다. 그렇다면 C-rank 에서는 어떤 부분들을 가지고 평가를 하길래 달라졌다고 하는 걸까요?


2. C-rank 에서 평가하는 항목


[사진 2] C-rank에서 평가에 참고하는 항목들


C-rank에서 평가하는 항목분은 위의 사진과 같습니다. 앞에서처럼 단순하게 평가하는 것이 아닌 다양한 부분들을 종합적으로 반영해서 네이버 검색을 이용하는 사용자들이 자신에게 더 필요하고, 신뢰성이 있는 정보를 알 수 있도록 변경한 것 입니다.

'Blog Collecton', 'Blog Activity', 'Blog Editor' 주제 점수 와 같은 항목들처럼 블로그 내에서 이루어지는 다양한 활동과 포스팅들을 평가합니다. 동시에 네이버가 자체 보유하고 있는 데이터베이스를 연동하여 문서의 출처와 인기도 등을 계산하고, 검색을 이용하는 이용자의 데이터를 이용하여 문서와 문서 출처의 인기도를 계산합니다. 또한 네이버가 보유하지 않은 다른 사이트나 웹 문서, 뉴스 등 타 출처에서 얼마나 관심을 가지고 있는지를 이용해 신뢰도와 인기도를 평가합니다.


이렇듯 C-rank에서는 다방면으로 블로그를 평가하여 검색에 노출시키고 있습니다. 그러므로 소위 ‘상위 노출이 잘 되는 블로그’가 되기 위해서는 이제 다양한 주제의 일상에 관한 글 보다는 하나의 주제를 가지고 전문성과 깊이가 있는 양질의 글을 꾸준히 업로드 하는 것이 중요합니다. 그렇기 때문에 네이버에서는 ‘무조건 상위 노출이 잘 되는 블로그’는 존재하지 않으며, 전문성을 가진 주제에 대해서 ‘상위 노출의 가능성’이 높다 라고 언급하고 있습니다.

하지만 C-rank에도 한계는 있습니다. 바로 C-rank를 통해서 검색에 많이 노출이 되게 된다면 작성자가 제작한 콘텐츠 자체의 품질보다는 출처인 블로그의 품질이 강조된다는 점인데요. 그래서 네이버에서는 이러한 점을 보완하기 위해서 DIA로직을 만들어냈습니다.


3.C-rank와 DIA


[사진 3] DIA모델의 작동 원리


DIA로직이란 ‘Deep Intent Analysis’의 약자입니다. 이는 글이 가지고 있는 내용을 분석하여 어떤 정보를 가지고 있는지, 어떤 경험이나 의견을 나타내고 있는지 등을 바탕으로 문서를 이해하고자 하는 기계 학습을 의미합니다 .즉 C-rank가 기존에 블로그 자체의 전문성이나 인기도를 측정하는 기준으로 작용을 했다면 DIA는 이제 블로그 내에서 작성된 포스팅 자체를 가지고 판단을 한다고 할 수 있습니다.

앞서 말했듯 C-rank는 문서의 출처에 대한 알고리즘이었습니다. 때문에 C-rank가 낮은 신규블로거들은 상위 노출이 되기가 상대적으로 힘들었다고 할 수 있는데요. 이를 보완하기 위해서 DIA를 만들었다고 할 수 있습니다. 그러므로 결국 블로그의 C-rank가 높지 않아도 문서의 품질이 좋다면 DIA를 통해서 상위 노출이 가능하고, C-rank가 높은 블로그는 역시 좋은 품질의 포스팅을 가지고 있다면 또한 상위노출이 가능하다고 네이버는 말합니다.

결국 C-rank와 DIA를 통해서 네이버가 블로그를 운영하는 이들에게 하고 싶은 말은 ‘자신만의 정보를 담은 양질의 컨텐츠를 꾸준히, 생산해 내라’ 라는 것을 알 수 있습니다.