Skip to content

Elasticsearch, Nori, FSCrawler를 활용한 문서 검색 엔진

Notifications You must be signed in to change notification settings

mdh0088/searchCrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Documents Search Projects


Elasticsearch, Nori 형태소 분석기, FSCrawler로 구현한 문서 검색엔진 입니다.

참고한 문서, 주소 URL을 하단에 작성 하였습니다.

pptx, pdf, word 등의 문서를 엘라스틱서치에 노리 형태소 분석기를 통해 인덱싱 합니다.

FSCrawler로 주기적으로 업데이트 합니다.


Architecture

업데이트 예정

Prerequisite

  1. 로컬 혹은 서버에 도커, 도커 컴포즈가 설치 되어 있어야 합니다.
  2. 본인은 Mac에서 개발 하였고, 도커가 설치 되는 모든 환경에서 가능 합니다.
  3. web/index.html 수정이 필요할 수도 있습니다.

아래 참고한 블로그 2의 코드에서 ajax로 가져오는 json 타입의 data와 부트스트랩 CDN을 사용하도록 수정 하였고

본인의 원하는 것에 맞게 퍼블리싱이 필요 할 수도 있습니다.

How to Install

1. 소스를 클론 한뒤 web 으로 사용되는 nginx를 빌드 합니다.
2. FSCrawler가 생성하는 Mapping에 사용되는 _settings.json을 본인이 사용할 형태소 분석기에 맞게 수정 합니다.

현재 이 레포지토리에 있는 _settings.json은 노리, 엘라스틱서치7에 맞게 수정된 파일 입니다.

How to Use

소스를 클론 받아 직접 구축 해보는 튜토리얼을 아래 저의 기술 블로그에 포스팅 하였습니다.

사용법 : 내 블로그

Ref

FSCrawler Github URL : FSCrawler Github

FSCrawler Documents URL : FSCrawler Readthedocs

ElasticSearch Document URL : Elasticsearch Official Home

참고한 블로그 1: URL1

참고한 블로그 2: URL2

About

Elasticsearch, Nori, FSCrawler를 활용한 문서 검색 엔진

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • CSS 99.3%
  • Other 0.7%