[데이터 토큰 추가] <PERSON> 부분이 나뉘어서 tokenize 되는 부분을 발견하였다! 어떻게 해결하는게 좋을까? #37
soohi0
started this conversation in
Show and tell
Replies: 1 comment 1 reply
-
아무것도 처리안했을 때 결과도 추가하면 좋을 거 같습니다~ 뭔가 살짝 다듬으면 좋은 결과가 나올 거 같네 |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
아이디어
문장중간 중간에 <PERSON> 이 있는데 이것이 토크나이징이 <, pe, r, son, > 으로 나뉘어서 되는 것을 확인하였다. 이것을 토크나이징 되기 전 하나의 토큰으로 만들어 주어야 모델이 해당 단어를 더 잘 이해하지 않을까 싶었다.
실험방법
총 세 가지의 갈래로 실험해보았다.
실험 결과
제거했을 때
"train_loss": 0.021521
"valid loss": 0.33398
"train_pearson": 0.99742
"valid_pearson": 0.92093
'당신'으로 대체했을 때
"train_loss": 0.11930
"valid loss": 0.41604
"train_pearson": 0.99356
"valid_pearson": 0.92149
token 을 추가했을 때
"train_pearson": 0.9943812489509584,
"train_loss": 0.13307693600654602,
"valid loss": 0.4042882157696618,
"valid_pearson": 0.9314978586302864,
정리
Beta Was this translation helpful? Give feedback.
All reactions