基于webmagic的分布式爬虫平台,实现通过参数化配置启动爬虫任务。
webmagic、 spring-cloud、 elastic-job 、 jdk8 、 docker
说明:追加页面url,追加中间数据。 例如58租房,城区页面、商圈页面、房屋列表页面,均视为中间页面 .
说明:解析页面数据,例如58租房,租房详情列表页面 .
说明:普通http请求获取页面. 例如:现有的HttpClientDownloader.
说明:需要js渲染的网页页面. 例如 :通过Chrome headless 特性(CdpSeleniumDownloader), 的webdriver+Selenium实现的(PhantomjsSeleniumDownloader)