Skip to content

Cloving/zhihu-Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 

Repository files navigation

编写关于知乎站点的各类爬虫

知乎用户动态

利用requests库请求用户的动态数据,包括赞同文章、赞同回答、发表文章、关注问题、关注专栏、回答问题等数据。之后序列化处理这些数据,以json的形式存储到MongoDB中。

代码地址:知乎用户动态

使用方式

在各类模块成功安装以及MongoDB配置完成的情况下,指定文件zhihuUserSpider.py中的self.user_name的值,即用户的个性化域名,运行该文件,即可完成。本例中的MongoDB配置了密码,如果MongoDB中没有使用密码可根据实际情况自行配置。

知乎用户粉丝

抓取并分析了知乎用户的粉丝数据,包括粉丝名、粉丝标题、粉丝男女比例、粉丝回答问题比例、粉丝被关注数等数据。之后利用pyecharts库对这些数据进行可视化的显示。

代码地址:知乎用户粉丝

使用方式

在文件Zhihu_spider.py中配置用户的个性化域名后直接运行即可将抓取到的文件存储,之后运行analysis_followers_data.py可以得到部分数据的可视化图表,框架已经完成,具体提取哪些数据以及用哪些图表展示可以自行配置。可以参考pyecharts - A Python Echarts Plotting Library

示例图

标题词云图

用户名词云图

粉丝回答数量直方图

粉丝男女比例饼图

粉丝被关注数量直方图

About

Based on zhihu

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages