Technical_Article_Spider

一个爬取国内技术站点的技术文章

为了方便之后的搜索引擎搭建,改用elasticsearch

开发环境:

python3
Scrapy ==1.4.0
elasticsearch-rtf
docker

还可以修改的一些配置

AUTOTHROTTLE_ENABLED   #设置是否延迟

AUTOTHROTTLE_START_DELAY = 2	#请求的延时(需要AUTOTHROTTLE_ENABLED=True)

AUTOTHROTTLE_MAX_DELAY = 60   #如果网络差的最大等待时长(需要AUTOTHROTTLE_ENABLED=True)

IMAGES_STORE = os.path.join(project_dir, 'images')	#images为图片的默认存放地址

PS：

已突破安全客反爬虫机制，搜索引擎搭建，请移步至Article_Search

更新日志

2017年12月25日
- 突破安全客反爬机制
- 弃用selenium
- 增加爬取freebuf的数据
2017年12月23日
- 增加任意User-Agent
2017年12月18日
- 数据分库
- 设置浏览器为无界面
2017年12月15日
- 弃用Mysql保存数据库
- 使用elasticsearch保存数据
2017年12月8日更新
- 对安全客进行爬去
- 完成图片的分类
- 优化代码性能,降低冗余性
2017年12月5日首次提交
- 当前版本仅对嘶吼的文章进行爬取

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.idea		.idea
Technical_Artical_Spider		Technical_Artical_Spider
4hou_Article-struct.sql		4hou_Article-struct.sql
README.md		README.md
anquanke_article-struct.sql		anquanke_article-struct.sql
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Technical_Article_Spider

一个爬取国内技术站点的技术文章

最新版本安装

还可以修改的一些配置

PS：

更新日志

About

Releases

Packages

Languages

smile0304/Technical_Article_Spider

Folders and files

Latest commit

History

Repository files navigation

Technical_Article_Spider

一个爬取国内技术站点的技术文章

最新版本安装

还可以修改的一些配置

PS：

更新日志

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages