Skip to content

littlejiangyuan/swoole-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

swoole-spider

开源的基于swoole的爬虫,目前正在开发,逐步更新中。目测11月中旬可以运行

1.读取配置文件,初始化第一条要爬取得url

2.解析url,得到Url对象,爬取改url

3.得到html页面,投递到task进行进行解析

4.将该url写入磁盘,同时在全局位图标示该url已经抓取过

关于代爬url 内存中存储100000条,如果超过100000条则写入磁盘 如果内存中没有数据,则去磁盘取100000条装入内存 待爬url默认写入buffer,如果buffer已满写入磁盘

About

开源的基于swoole的爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published