爬取 PTT Joke 版文章,並且使用 PyTorch BERT 預測文章是否 (推噓相減後) 七天內會大於等於 30 推。
介紹請看我的部落格文章:如何訓練一個合理的文字分類模型
建議使用 virtualenv 安裝套件。
virtualenv __
source __/bin/activate
pip install -r requirements.txt
使用以下指令爬取資料:
./scripts/crawling.sh
或者執行 crawler.py
:
python crawler.py --board {版名} --date {開始日期} --length {爬取天數}
請先將參數寫進 config.yaml
:
pretrained_weight: bert-base-multilingual-cased
train_batch_size: 12
eval_batch_size: 24
epochs: 30
patient: 3
lr: 0.000001
name: checkpoint/
訓練及預測:
python train.py
最後會印出 test set 分數:
2020-08-16 19:43:06,477 INFO [train:main:196] Test loss 0.008711 Test acc 0.935286 Test auc 0.769546
2020-08-16 19:43:06,477 INFO [train:main:197] Done
MIT License