[데이터 토큰 추가] <PERSON> 부분이 나뉘어서 tokenize 되는 부분을 발견하였다! 어떻게 해결하는게 좋을까? #37

soohi0 · 2022-11-01T01:55:24Z

soohi0
Nov 1, 2022
Maintainer

문장중간 중간에 <PERSON> 이 있는데 이것이 토크나이징이 <, pe, r, son, > 으로 나뉘어서 되는 것을 확인하였다. 이것을 토크나이징 되기 전 하나의 토큰으로 만들어 주어야 모델이 해당 단어를 더 잘 이해하지 않을까 싶었다.

총 세 가지의 갈래로 실험해보았다.

<person> token 을 제거
<person> token 을 최대한 유사한 단어로 대체 -> '당신' 이라는 단어로 대체하였다. '당신'이라는 단어는 하나의 토큰으로 변경되는 것 확인. 불용어에도 없음.
<person> token 을 tokenizer에 추가하여 fine-tuning

제거했을 때
"train_loss": 0.021521
"valid loss": 0.33398
"train_pearson": 0.99742
"valid_pearson": 0.92093
'당신'으로 대체했을 때
"train_loss": 0.11930
"valid loss": 0.41604
"train_pearson": 0.99356
"valid_pearson": 0.92149

papari1123 · 2022-11-01T02:17:17Z

아무것도 처리안했을 때 결과도 추가하면 좋을 거 같습니다~ 뭔가 살짝 다듬으면 좋은 결과가 나올 거 같네

1 reply

오호! 좋은생각이군요 ㅎㅎ 추가하겠습니당~!