前程无忧爬虫
【程序运行前确保项目需要的库都已下载】
1、修改51job_info.py代码66行,根据需要修改页数,默认2页,数据分析需要海量数据时可修改成1000页
2、运行51job_info.py
3、输入职位关键词 如:大数据、C语言、软件开发
4、爬取到的数据将储存在51job.xls
程序中注释内容包含大量调试信息,遇到异常时可以打开注释,查看运行情况 爬取过程中因为单页内容较多,请耐心等候 如果程序未能爬取到信息,可能的原因是缺少包,或者该网页源码被修改,需要重新定义正则
1、运行51job_clean.py
2、代码默认对职位的清洗条件的非大数据相关的职位,需要根据你们搜索的职位自行修改
3、清洗后的数据将储存在51job2.xls,(若清洗后的数据中还有错误数据,可修改清洗条件或手动将错误数据删除)
4、运行51job_view.py
4、pyecharts动态图将生成 .html 文件,用浏览器打开即可