Skip to content

weishiair/51job_spiders

 
 

Repository files navigation

51job_spiders

前程无忧爬虫

【程序运行前确保项目需要的库都已下载】

数据爬取:

1、修改51job_info.py代码66行,根据需要修改页数,默认2页,数据分析需要海量数据时可修改成1000页
2、运行51job_info.py
3、输入职位关键词 如:大数据、C语言、软件开发
4、爬取到的数据将储存在51job.xls

程序中注释内容包含大量调试信息,遇到异常时可以打开注释,查看运行情况 爬取过程中因为单页内容较多,请耐心等候 如果程序未能爬取到信息,可能的原因是缺少包,或者该网页源码被修改,需要重新定义正则

数据清洗与数据可视化

1、运行51job_clean.py
2、代码默认对职位的清洗条件的非大数据相关的职位,需要根据你们搜索的职位自行修改
3、清洗后的数据将储存在51job2.xls,(若清洗后的数据中还有错误数据,可修改清洗条件或手动将错误数据删除)
4、运行51job_view.py
4、pyecharts动态图将生成 .html 文件,用浏览器打开即可

详细过程可见博客:https://www.cnblogs.com/mehong/p/17485487.html

About

前程无忧爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 74.7%
  • Python 25.3%