GitHub - GoOnToDeth/SpiderForFiction: Python实现某小说网站的数据爬取

GoOnToDeth / SpiderForFiction Public

Notifications You must be signed in to change notification settings
Fork 0
Star 3

Python实现某小说网站的数据爬取

3 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
__pycache__		__pycache__
images		images
.gitattributes		.gitattributes
.gitignore		.gitignore
ArticleDetails.py		ArticleDetails.py
BookCatalog.py		BookCatalog.py
README.md		README.md
SpiderBooks.py		SpiderBooks.py
SpiderMain.py		SpiderMain.py

Repository files navigation

简介

Python实现的某网站小说爬取，并输出成html文件。

输出结果

运行环境

python3.4
BeautifulSoup(使用bs4库)

技术细节

SpiderMain.py 入口类，其中DownloaderHtml用于实现线程调度；
SpiderBooks.py 获取目标页中所有的小说的url和名称；
BookCatalog.py 获取所有小说的第一章(节)的url和章(节)名称；
ArticleDetails.py 获取所有章(节)的标题、内容和url，并输出为html文件

About

Python实现某小说网站的数据爬取

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%