- 项目结构
- jobspider.py
主爬虫程序,负责爬取信息并导入其他文件保存信息 - savedata.py
信息保存文件,主要负责信息的保存方法 - citynum.py
本项目中主要负责生成城市代号,因为51job的URL中城市是用自己网站划分的城市代号表示的
- jobspider.py
- Python库支持
requests
Beautifulsoup
re
urllib.parse
pymysql
- spider思路
获取第一个链接信息>>提取信息>>保存信息到数据库>>获取下一页链接>>递归翻页 - 技巧与难点
城市代码是在一个JS文件中复制过来的, 自己输入的城市需要跟这个字典匹配生成城市代码 - 数据样本见Excel表格
- 值得改进
- 信息提取过少,只有页面的几个基本信息,更多的信息需要打开招聘页面进一步爬虫
- 后续进一步的信息提取
- 将爬取的信息进行数据分析,比如招聘信息中的技能要求进行词频分析,这个后续跟进
51job
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||