-
Notifications
You must be signed in to change notification settings - Fork 0
Introduce to 'TextRank'
junwoo kim edited this page Jun 3, 2021
·
1 revision
- task는 ranking in Natural Language Processing
- 어떤 단위인지는 모르겠지만 주어진 텍스트 덩어리의 내용, 성분을 ranking하겠다는 것.
- 주어진 데이터(Text 덩어리)를 그래프로 치환시켜 ranking하는 알고리즘
- 기존에 시도된 방법들은 huffman encoding과 같이 빈도(frequency), heuristic 기반의 직관적인 방법들
- 전체 그래프의 글로벌 정보를 재귀적으로 계산하여 정점의 중요도를 결정한다.
- 기존의 방법들이 사람 직관에서 나온 것이라, 어쩔 수 없이 자기 근처에서만 중요도를 계산하는데 반해, 전체적으로 다 보겠다는 내용임.
- 문장추출, 키워드 추출 모두 해낼 수 있음.
- 이 두가지를 직관적으로 설명하면, "참조하는 횟수를 계량화(Scoring)" 한다라는 것과 같음.
- 주어진 텍스트 덩어리를 2~3개씩 묶은 구문(Pharse)로 잘라서, 이를 그래프에 치환시킬 수 있다.
- 이 때, 정점에 대한 정보는 Vertex(index=임의부여, data="", score="uniform distribution에서 임의부여")로 지정할 수 있다.
- traditional method는 정점 정보만 가지고 계산한다.
- 우리의 방법에서는 weighted graph에서도 동작하도록 한다.
- 공식 자체는 노션을 참고하면 됩니다.
- weight는 directed graph에서의 edge에 대응된다.
- weight에 부여될 값은, keyword extraction이라면 arbitary value로 시작하고, sentence extraction이라면 별도의 계산공식이 존재한다.