- 项目运行
启动lagouspider.py填写要查询的城市和关键词即可,爬虫运行完毕会将信息保存到Excel表格中, 表格名称以启动时间和关键词命名 - 项目结构
- lagouspider.py
主爬虫文件,负责调度其他文件执行信息的提取和数据保存 - savedata.py
信息保存文件,负责信息保存的方式 - config.py
配置文件,本项目中主要负责构造headers
- lagouspider.py
- Python库支持
requests
json
BeautifulSoup
urllib.parse
xlwt
hashlib
datetime
random
- spider思路
请求一次获取总页码数>>提取并保存数据到Excel>>按照总页码数循环翻页 - 其他
请求头headers需要附带cookie参数,可以自己构建一个cookie函数自动生成
Excel操作可以参考https://github.com/Hopetree/mytests/blob/master/excel-module/xlwt_test.py
lagou
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||