hupu_spider

用scrapy框架写了一个爬取虎扑步行街帖子的爬虫步行街地址： https://bbs.hupu.com/bxj

目前完成功能

爬取帖子，获取作者，发帖时间，帖子浏览数，回帖数等信息存到数据库中
爬取帖子内容，获取回帖的数据并插入到数据库中
下载帖子内容中的图片

待完善

随机切换user-agent.目前没有设置user-agent，虎扑估计没怎么做反爬，所以目前没遇到什么问题。但是为了避免将来爬虫突然失效，还是做一下user-agent设置比较稳妥
添加代理，防止ip被封

安装步骤

需要安装的软件

python3
mysql

需要安装的python库:

scrapy
pillow(用于下载图片，如果不用下载图片可以不用这个库)
DBUtils
pymysql

pip install scrapy
pip install pillo
pip install DBUtils
pip install pymysql

当需要的软件和库都安装好后，进行以下步骤

进入mysql环境，创建数据库。create database hupu。当然，数据库不叫虎扑也可以，到时记得改项目中的配置文件
执行该项目中的 mysql_db/hupu_post.sql 创建相关的表。
修改db_config.py中的数据库配置。包括用户密码，数据库等。
如果要下载图片，需要修改settings.py中的IMAGES_STORE变量，同时将ITEM_PIPELINES变量的HupuImgDownloadPipeline那行的注释去掉。项目默认是不下载图片的。
执行./run.sh运行程序，window环境下直接在hupu_spider目录下执行 scrapy crawl hupu_post 也是一样的。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
hupu_spider		hupu_spider
mysql_db		mysql_db
.gitattributes		.gitattributes
README.md		README.md
run.sh		run.sh
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

hupu_spider

目前完成功能

待完善

安装步骤

相关问题

1. 执行发现报`ModuleNotFoundError: No module named '_sqlite3'`错误

About

Releases

Packages

Languages

kongtrio/hupu_spider

Folders and files

Latest commit

History

Repository files navigation

hupu_spider

目前完成功能

待完善

安装步骤

相关问题

1. 执行发现报ModuleNotFoundError: No module named '_sqlite3'错误

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

1. 执行发现报`ModuleNotFoundError: No module named '_sqlite3'`错误

Packages