update tokenizer

ruixie · ruixie · commit 789d0d69aba0 · 2023-10-22T22:41:47.000+08:00
diff --git a/demos/cli_demo.py b/demos/cli_demo.py
@@ -215,7 +215,7 @@ def main():
                 response = response.replace('|<end>|', '')
                 _clear_screen()
                 print(f"\nUser: {query}")
-                print(f"\nQwen-Chat: {response}")
+                print(f"\CodeShell-Chat: {response}")
         except KeyboardInterrupt:
             print('[WARNING] Generation interrupted')
             continue
diff --git a/tokenizer/tokenizer.json b/tokenizer/tokenizer.json
@@ -173,6 +173,15 @@
       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 70019,
+      "content": "<|end|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": null,
diff --git a/tokenizer/tokenizer_config.json b/tokenizer/tokenizer_config.json
@@ -19,14 +19,15 @@
     "<commit_before>",
     "<commit_msg>",
     "<commit_after>",
-    "<reponame>"
+    "<reponame>",
+    "<|end|>"
   ],
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 8192,
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>",
-  "vocab_size": 70019,
+  "vocab_size": 70020,
   "pad_token": "<|endoftext|>"
 }