Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
xiu0327 authored Jun 16, 2023
1 parent b04fd8b commit 819fa02
Showing 1 changed file with 0 additions and 5 deletions.
5 changes: 0 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -46,11 +46,6 @@

[GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다.](https://github.com/lovit/soynlp)

[KR-WordRank, 토크나이저를 이용하지 않는 한국어 키워드 추출기](https://lovit.github.io/nlp/2018/04/16/krwordrank/)
하지만 네이버 게시글 수가 너무 적으면 키워드가 추출하지 않는 상황이 발생한다. 이럴 땐 블로그에서 명사만 추출해도 어느 정도 키워드를 잡을 수 있을 거라 생각했다. 단, mecab나 khaiii 등과 같은 토크나이저로 명사를 추출하기엔 블로그 데이터 특성상 맞춤법과 띄어쓰기가 지켜지지 않았기 때문에 soynlp와 okt 형태소 분석기를 사용하여 명사만 추출했다.

[GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다.](https://github.com/lovit/soynlp)

### 3. 유사도 측정

이제 책 소개에서 추출한 명사와 블로그 키워드를 비교하여 유사도를 계산한다.
Expand Down

0 comments on commit 819fa02

Please sign in to comment.