- crawler-web 服务代理用户交互输入的数据,如:用户名,密码,验证码,短信密码等
- crawler-webdriver 基于webdriver的定向爬取信息,如商品信息,新闻信息,图片信息等
- crawler-storage 爬虫信息的存储服务,可以支持hbase存储,redis存储,文件系统存储等,支持横向无线扩容
- crawler-task 分布式任务解析器,提供了以jsoup的方式解析爬去网页信息
- crawler-message 分布式消息系统,用来接收爬去结果信息接收,解析任务结果接收异步消息消费和订阅的处理
- crawler-common 通用基础服务,对外提供如ip地址定位,phone定位,proxy ip随机选取等操作
- crawler-monitor 监控爬虫网络从用户交互输入信息,后台抓取网页,网页解析,网页非结构化存储和结构化存储,消息同步等各个环节的监控,给出一个完整从爬取到交付数据团队使用中间链路的行为监控,性能监控,异常监控,数据监控,成功率等质量指标
-
Notifications
You must be signed in to change notification settings - Fork 9
ddviplinux/crawler-framework
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
分布式爬虫框架,基于webdrvier模拟用户请求,kafka消息传递,分布式网页存储使用hbase,task异步任务多线程解析,提供基础服务如:proxy ip服务和号码验证服务等, proxy page使用H5和we版进行接入
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published