金庸小说人物关系图谱构建
Python 3.6+
MongoDB
Neo4j
1.爬取金庸小说数据
启动 MongoDB 进程,执行爬虫文件 xiaoshuo_spider.py ,得到小说文本存入MongoDB。
scrapy crawl spider_xiaoshuo
执行转换脚本 convert.py,将 MongoDB 中的小说数据转成文本存到本地。
python convert.py
2.获取小说中的人名
执行 extract_persons.py ,对小说文本进行词法分析,提取出人名
python extract_persons.py
3.通过人名爬取百度百科
执行爬虫文件 person_spider.py,根据人名爬取百度百科相关的属下和关系,存入MongoDB。
scrapy crawl person_spider
4.MongoDB 转 Neo4j
执行转换脚本 mongo2neo.py,将 MongoDB 中数据导入 Neo4j 。
python mongo2neo.py
启动 neo4j:neo4j.bat console
python app.py