一项目功能

使用python+selenium爬取微博数据

--------控制台输入指定话题和要爬取的页数，获取到该话题若干页的微博内容(发布者昵称，发布时间，微博内容，点赞数量)

二文件功能描述

1 weibo_cookie.py文件用于登录生成cookie（先运行这个生成自己的cookies）

------cookies.json文件保存登录成功后服务端返回的cookie

2 weibo_data.py文件，主函数（生成cookie后运行这个）

3 weibo_data_functions.py文件，定义相关函数，包括爬取单页数据函数，爬取多页数据函数，微博内容处理函数，日期格式化函数

4 database_connection_utils.py文件，返回数据库连接（可根据自己需求保存爬取结果）

5 driverUtils.py文件，返回添加防检测手段的webdriver对象

6 hide.js文件，该脚本用于去除selenium浏览器生成的相关属性

三数据库表

DROP DATABASE if EXISTS weibo_data;
CREATE DATABASE weibo_data;
USE weibo_data;
DROP TABLE IF EXISTS weibo;
CREATE TABLE weibo(
    id INT PRIMARY KEY AUTO_INCREMENT,
 	topic VARCHAR(20),
	author VARCHAR(20),
    time VARCHAR(30),
	content VARCHAR(10000),
	like_count INT
);

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

一项目功能

二文件功能描述

三数据库表

About

Uh oh!

Releases 1

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md
cookies.json		cookies.json
database_connection_utils.py		database_connection_utils.py
driverUtils.py		driverUtils.py
hide.js		hide.js
weibo_cookie.py		weibo_cookie.py
weibo_data.py		weibo_data.py
weibo_data_functions.py		weibo_data_functions.py

userHanlh/web_crawler_weibo

Folders and files

Latest commit

History

Repository files navigation

一 项目功能

二 文件功能描述

三 数据库表

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

一项目功能

二文件功能描述

三数据库表

Packages