PTT 推文預測

爬取 PTT Joke 版文章，並且使用 PyTorch BERT 預測文章是否 (推噓相減後) 七天內會大於等於 30 推。

環境設定

建議使用 virtualenv 安裝套件。

virtualenv __
source __/bin/activate
pip install -r requirements.txt

準備資料

使用以下指令爬取資料：

./scripts/crawling.sh

或者執行 crawler.py：

python crawler.py --board {版名} --date {開始日期} --length {爬取天數}

訓練模型

請先將參數寫進 config.yaml：

pretrained_weight: bert-base-multilingual-cased
train_batch_size: 12
eval_batch_size: 24
epochs: 30
patient: 3
lr: 0.000001
name: checkpoint/

訓練及預測：

python train.py

最後會印出 test set 分數：

2020-08-16 19:43:06,477 INFO [train:main:196] Test loss 0.008711 Test acc 0.935286 Test auc 0.769546
2020-08-16 19:43:06,477 INFO [train:main:197] Done

PTT 推文預測授權條款

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data/joke		data/joke
scripts		scripts
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
analysis.ipynb		analysis.ipynb
config.yaml		config.yaml
crawler.py		crawler.py
requirements.txt		requirements.txt
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PTT 推文預測

環境設定

準備資料

訓練模型

PTT 推文預測授權條款

About

Releases

Packages

Languages

License

lintseju/ptt_push_predictor

Folders and files

Latest commit

History

Repository files navigation

PTT 推文預測

環境設定

準備資料

訓練模型

PTT 推文預測 授權條款

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

PTT 推文預測授權條款

Packages