Skip to content

CSDN官网各种信息抓取,采用jsoup/webMagic进行实现,各种爬虫策略的处理,可以很好的进行爬虫学习

Notifications You must be signed in to change notification settings

flyliu0723/WebMagic_CSDN_Demo

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

WebMagic_CSDN_Demo

简介

  • 该项目是使用webMagic进行爬取CSDN各种信息的一个demo集合。
  • 爬虫各种疑难点的解决方案尝试。
  • 项目当前只包含爬虫核心代码(可以运行),不包含持久层与定时任务的处理。
  • 项目当前不会更新,大概在5月份进行大规模的更新。
  • 注释比较完善,适合webMaigc入门者学习。
  • 更多原理介绍以及实现思路请参看我的博客:http://blog.csdn.net/wgyscsf

功能列表

  • 博主信息爬取
  • 个人中心信息爬取
  • 博客列表分页爬取
  • 专家列表分页爬取
  • 所有用户迭代爬取
  • 模拟登陆
  • 异步网页爬取处理
  • 360应用市场搜索页面爬取(根据关键字搜索)

About

CSDN官网各种信息抓取,采用jsoup/webMagic进行实现,各种爬虫策略的处理,可以很好的进行爬虫学习

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Java 84.2%
  • PLpgSQL 15.8%