Skip to content

selenium爬取指定话题的微博数据并进行数据处理

Notifications You must be signed in to change notification settings

userHanlh/web_crawler_weibo

Repository files navigation

一 项目功能

使用python+selenium爬取微博数据

--------控制台输入指定话题和要爬取的页数,获取到该话题若干页的微博内容(发布者昵称,发布时间,微博内容,点赞数量)

二 文件功能描述

1 weibo_cookie.py文件用于登录生成cookie(先运行这个生成自己的cookies)

------cookies.json文件保存登录成功后服务端返回的cookie

2 weibo_data.py文件,主函数(生成cookie后运行这个)

3 weibo_data_functions.py文件,定义相关函数,包括爬取单页数据函数,爬取多页数据函数,微博内容处理函数,日期格式化函数

4 database_connection_utils.py文件,返回数据库连接(可根据自己需求保存爬取结果)

5 driverUtils.py文件,返回添加防检测手段的webdriver对象

6 hide.js文件,该脚本用于去除selenium浏览器生成的相关属性

三 数据库表

DROP DATABASE if EXISTS weibo_data;
CREATE DATABASE weibo_data;
USE weibo_data;
DROP TABLE IF EXISTS weibo;
CREATE TABLE weibo(
    id INT PRIMARY KEY AUTO_INCREMENT,
 	topic VARCHAR(20),
	author VARCHAR(20),
    time VARCHAR(30),
	content VARCHAR(10000),
	like_count INT
);

About

selenium爬取指定话题的微博数据并进行数据处理

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages