- 该项目是使用webMagic进行爬取CSDN各种信息的一个demo集合。
- 爬虫各种疑难点的解决方案尝试。
- 项目当前只包含爬虫核心代码(可以运行),不包含持久层与定时任务的处理。
- 项目当前不会更新,大概在5月份进行大规模的更新。
- 注释比较完善,适合webMaigc入门者学习。
- 更多原理介绍以及实现思路请参看我的博客:http://blog.csdn.net/wgyscsf
- 博主信息爬取
- 个人中心信息爬取
- 博客列表分页爬取
- 专家列表分页爬取
- 所有用户迭代爬取
- 模拟登陆
- 异步网页爬取处理
- 360应用市场搜索页面爬取(根据关键字搜索)