Introduce to 'TextRank'

Jump to bottom

junwoo kim edited this page Jun 3, 2021 · 1 revision

Abstract

task는 ranking in Natural Language Processing
- 어떤 단위인지는 모르겠지만 주어진 텍스트 덩어리의 내용, 성분을 ranking하겠다는 것.
주어진 데이터(Text 덩어리)를 그래프로 치환시켜 ranking하는 알고리즘
기존에 시도된 방법들은 huffman encoding과 같이 빈도(frequency), heuristic 기반의 직관적인 방법들
전체 그래프의 글로벌 정보를 재귀적으로 계산하여 정점의 중요도를 결정한다.
기존의 방법들이 사람 직관에서 나온 것이라, 어쩔 수 없이 자기 근처에서만 중요도를 계산하는데 반해, 전체적으로 다 보겠다는 내용임.
문장추출, 키워드 추출 모두 해낼 수 있음.

알고리즘 설명

key concept: voting, recommendation

이 두가지를 직관적으로 설명하면, "참조하는 횟수를 계량화(Scoring)" 한다라는 것과 같음.
주어진 텍스트 덩어리를 2~3개씩 묶은 구문(Pharse)로 잘라서, 이를 그래프에 치환시킬 수 있다.
이 때, 정점에 대한 정보는 Vertex(index=임의부여, data="", score="uniform distribution에서 임의부여")로 지정할 수 있다.

Formal Concepts

traditional method는 정점 정보만 가지고 계산한다.
우리의 방법에서는 weighted graph에서도 동작하도록 한다.
공식 자체는 노션을 참고하면 됩니다.
weight는 directed graph에서의 edge에 대응된다.
weight에 부여될 값은, keyword extraction이라면 arbitary value로 시작하고, sentence extraction이라면 별도의 계산공식이 존재한다.