forked from ThaoNguyen1314/Sentiment-Analysis
-
Notifications
You must be signed in to change notification settings - Fork 0
/
README.txt
63 lines (50 loc) · 2.9 KB
/
README.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
1. Models đã train ở link (5 model tương ứng 5 fold)
https://drive.google.com/drive/folders/1VMD0-kP3TUad1_VYO65jTnYHHCf_6z4P
2. Chạy trên colab: Clone git, cd đến folder vừa clone
3. Run requirements.txt
4. Run:
!mkdir -p vncorenlp/models/wordsegmenter
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr
!mv VnCoreNLP-1.1.1.jar vncorenlp/
!mv vi-vocab vncorenlp/models/wordsegmenter/
!mv wordsegmenter.rdr vncorenlp/models/wordsegmenter/
!wget https://public.vinai.io/PhoBERT_base_transformers.tar.gz
!tar -xzvf PhoBERT_base_transformers.tar.gz
5. Sửa link dict.txt ở file infer.py (dòng 55) và file train.py (dòng 68)
6. Paste và sửa link phù hợp
- Train:
!python train.py --fold 0 \
--train_path '/content/drive/MyDrive/Colab_Notebooks/Phobert/PhoBert-Sentiment-Classification/full_train.csv' \
--dict_path "./PhoBERT_base_transformers/model.bin" \
--config_path "./PhoBERT_base_transformers/config.json" \
--bpe-codes "./PhoBERT_base_transformers/bpe.codes" \
--pretrained_path './PhoBERT_base_transformers/model.bin' \
--ckpt_path './models' \
--rdrsegmenter_path "/content/drive/MyDrive/Colab_Notebooks/Phobert/PhoBert-Sentiment-Classification/vncorenlp/VnCoreNLP-1.1.1.jar"
**** Train 5 lần, sửa --fold lần lượt từ 0 đến 4,
Mỗi lần run train, khi tiến độ hiển thị 100% 6/6 [1:16:20<38:10, 1145.05s/it] thì ấn stop run và thay số --fold train tiếp
- Test:
!python infer.py --fold x \
--test_path '/content/drive/MyDrive/Colab Notebooks/Phobert/Sentiment_Phobert/test.csv' \
--dict_path "./PhoBERT_base_transformers/model.bin" \
--config_path "./PhoBERT_base_transformers/config.json" \
--bpe-codes "./PhoBERT_base_transformers/bpe.codes" \
--pretrained_path './PhoBERT_base_transformers/model.bin' \
--ckpt_path './models' \
--rdrsegmenter_path "/content/drive/MyDrive/Colab Notebooks/Phobert/Sentiment_Phobert/vncorenlp/VnCoreNLP-1.1.1.jar"
**** Thay x = số fold đã train (các số từ 1 đến 5, khuyến khích train đủ 5 lần)
Khi thấy hiển thị:
Predicting for fold 0
Predicting for fold 1
Predicting for fold 2
Predicting for fold 3
Predicting for fold 4
thì stop run và download file submission.csv
**** Nếu muốn dùng model train sẵn, tạo folder Models, tải và paste Model ở bước 1 vào folder Models.
7. Nếu muốn chạy code clean data:
+ Xoá # ở file infer.py (dòng 74) và file train.py (dòng 76, 77)
+ Sửa path_nag, path_pos (dòng 118, 119)
8. Giải nén file data.rar, tập data 59000 dữ liệu ở file data.csv
9. Link LSTM: https://www.kaggle.com/code/anh147/sentiment-rb