swoole-spider 开源的基于swoole的爬虫,目前正在开发,逐步更新中。目测11月中旬可以运行 1.读取配置文件,初始化第一条要爬取得url 2.解析url,得到Url对象,爬取改url 3.得到html页面,投递到task进行进行解析 4.将该url写入磁盘,同时在全局位图标示该url已经抓取过 关于代爬url 内存中存储100000条,如果超过100000条则写入磁盘 如果内存中没有数据,则去磁盘取100000条装入内存 待爬url默认写入buffer,如果buffer已满写入磁盘