编写关于知乎站点的各类爬虫
利用requests库请求用户的动态数据,包括赞同文章、赞同回答、发表文章、关注问题、关注专栏、回答问题等数据。之后序列化处理这些数据,以json的形式存储到MongoDB中。
代码地址:知乎用户动态
在各类模块成功安装以及MongoDB配置完成的情况下,指定文件zhihuUserSpider.py中的self.user_name的值,即用户的个性化域名,运行该文件,即可完成。本例中的MongoDB配置了密码,如果MongoDB中没有使用密码可根据实际情况自行配置。
详细介绍:抓取知乎用户动态数据
抓取并分析了知乎用户的粉丝数据,包括粉丝名、粉丝标题、粉丝男女比例、粉丝回答问题比例、粉丝被关注数等数据。之后利用pyecharts库对这些数据进行可视化的显示。
代码地址:知乎用户粉丝
在文件Zhihu_spider.py中配置用户的个性化域名后直接运行即可将抓取到的文件存储,之后运行analysis_followers_data.py可以得到部分数据的可视化图表,框架已经完成,具体提取哪些数据以及用哪些图表展示可以自行配置。可以参考pyecharts - A Python Echarts Plotting Library




