使用python+selenium爬取微博数据
--------控制台输入指定话题和要爬取的页数,获取到该话题若干页的微博内容(发布者昵称,发布时间,微博内容,点赞数量)
1 weibo_cookie.py文件用于登录生成cookie(先运行这个生成自己的cookies)
------cookies.json文件保存登录成功后服务端返回的cookie
2 weibo_data.py文件,主函数(生成cookie后运行这个)
3 weibo_data_functions.py文件,定义相关函数,包括爬取单页数据函数,爬取多页数据函数,微博内容处理函数,日期格式化函数
4 database_connection_utils.py文件,返回数据库连接(可根据自己需求保存爬取结果)
5 driverUtils.py文件,返回添加防检测手段的webdriver对象
6 hide.js文件,该脚本用于去除selenium浏览器生成的相关属性
DROP DATABASE if EXISTS weibo_data;
CREATE DATABASE weibo_data;
USE weibo_data;
DROP TABLE IF EXISTS weibo;
CREATE TABLE weibo(
id INT PRIMARY KEY AUTO_INCREMENT,
topic VARCHAR(20),
author VARCHAR(20),
time VARCHAR(30),
content VARCHAR(10000),
like_count INT
);