GitHub - qq24090467/crawler_client_v0.8.4: java 爬虫客户端程序，支持多线程，分布式，包含若干站点的采集模板

qq24090467 / crawler_client_v0.8.4 Public

Notifications You must be signed in to change notification settings
Fork 3
Star 8

java 爬虫客户端程序，支持多线程，分布式，包含若干站点的采集模板

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.idea		.idea
.settings		.settings
config		config
lib		lib
site		site
src/common		src/common
test		test
.classpath		.classpath
.project		.project
README.txt		README.txt
crawler_client_v0.8.4.iml		crawler_client_v0.8.4.iml
start.sh		start.sh
update.log		update.log

Repository files navigation

数据爬虫，可作为独立爬虫或分布式爬虫的client，集成了新闻、论坛、博客、微博、视频、电商、微信、学术、会议、基金、专利、电子报等搜索和垂直采集功能，
根据crawlerType配置调整爬虫为某种类型
config.properties中crawler_type对应的采集类型:新闻-1,2，论坛-3,4，博客-5,6，微博-7,8，视频-9,10，学术-11,12，电商-13,14. 奇数搜索，偶数垂直
注：
	页面内容抽取包结构：
	extractor->AbstracExtractor->Xpath->News,Blog,Bbs……
							   ->Regex
							   ->other
	新增不同的采集类型时，在down、extractor包建相应的包，可参考已有格式，同时需要在service包建相应类型的数据库操作
							   
	数据存储：
	service->Mysql->News,blog,Bbs,Weibo,Video……
		   ->Oracle->News,blog,Bbs,Weibo,Video……
		   ->Hbase->Ebusiness……
		   ->other
	新增数据库操作时，在service包新增相应的包，可参考已有格式	   
	   
配置：
	config.properties
		distribute属性表示使用分布式或单机模式
		crawler_type表示采集类型，类型参见CrawlerType类
		
		
	抽取配置读取的两种形式：读取文件、读取数据库
	config/site文件夹中的文件表示某采集类型公用模板：
		bbs_search.xml	论坛搜索模板
		blog_search.xml	博客搜索模板
		news_search.xml	新闻搜索模板
		weibo_search.xml	微博搜索模板
	
	site文件夹中的文件表示为某站点的属性和Xpath配置
		文件名规范:采集类型+站点名，如bbs_search_tianya.xml

v0.8.2 
	调整抽取类的代码结构
	修复多个bug
	添加各爬虫的垂直采集
	增加配置读取方式
v0.8.3 
	*调整实现分布式爬虫控制功能
	调整分布式采集任务运行方式
	*修改数据库读取配置的处理
	新增默认下载和抽取类
	增加多个爬虫类型	
	*新增报告pdf下载
	*调整数据库数据获取方式
	*快照上传功能的可配置