Skip to content

Introduce to 'TextRank'

junwoo kim edited this page Jun 3, 2021 · 1 revision

Abstract

  • task는 ranking in Natural Language Processing
    • 어떤 단위인지는 모르겠지만 주어진 텍스트 덩어리의 내용, 성분을 ranking하겠다는 것.
  • 주어진 데이터(Text 덩어리)를 그래프로 치환시켜 ranking하는 알고리즘
  • 기존에 시도된 방법들은 huffman encoding과 같이 빈도(frequency), heuristic 기반의 직관적인 방법들
  • 전체 그래프의 글로벌 정보를 재귀적으로 계산하여 정점의 중요도를 결정한다.
  • 기존의 방법들이 사람 직관에서 나온 것이라, 어쩔 수 없이 자기 근처에서만 중요도를 계산하는데 반해, 전체적으로 다 보겠다는 내용임.
  • 문장추출, 키워드 추출 모두 해낼 수 있음.

알고리즘 설명

key concept: voting, recommendation

  • 이 두가지를 직관적으로 설명하면, "참조하는 횟수를 계량화(Scoring)" 한다라는 것과 같음.
  • 주어진 텍스트 덩어리를 2~3개씩 묶은 구문(Pharse)로 잘라서, 이를 그래프에 치환시킬 수 있다.
  • 이 때, 정점에 대한 정보는 Vertex(index=임의부여, data="", score="uniform distribution에서 임의부여")로 지정할 수 있다.

Formal Concepts

  • traditional method는 정점 정보만 가지고 계산한다.
  • 우리의 방법에서는 weighted graph에서도 동작하도록 한다.
  • 공식 자체는 노션을 참고하면 됩니다.
  • weight는 directed graph에서의 edge에 대응된다.
  • weight에 부여될 값은, keyword extraction이라면 arbitary value로 시작하고, sentence extraction이라면 별도의 계산공식이 존재한다.
Clone this wiki locally