Update added tokens #1335

ArthurZucker · 2023-09-01T18:55:03Z

What does this PR do?

Fixes #1334 and refactors the AddedVocabulary. Previously the when a token was already part of the vocabuary it was not added to the added_tokens_map but still added to added_tokens_map_r which is not consistent. Now it is added in both even if it already existed.

Here is a small snippet of what is now possible in python

>>> from tokenizers import AddedToken, Tokenizer
>>> token = AddedToken("HEY")
>>> tokenizer = Tokenizer.from_pretrained("gpt2")
>>> tokenizer.get_added_tokens_decoder()

>>> tokenizer.add_tokens([token])
1
>>> token.special = False
>>> tokenizer.add_tokens([token])
1 
>>> tokenizer.get_vocab_size()
50258
>>> content = tokenizer.decode([4])
'%'
>>> tokenizer.add_tokens([AddedToken('%')])
1
>>> tokenizer.get_added_tokens_decoder()
{4: AddedToken("%", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False),
 50256: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
 50257: AddedToken("HEY", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False)}
>>> tokenizer.get_vocab_size()
50258

HuggingFaceDocBuilderDev · 2023-09-01T19:02:31Z

The documentation is not available anymore as the PR was closed or merged.

…_vocab_size

…b` function

Narsil · 2023-09-06T13:52:56Z

tokenizers/src/tokenizer/mod.rs

+        // TODO ArthurZ THIS IS WRONG! We need to measure the length of the `set` because
+        // now some tokens can be both in the added_tokens_encoder and in the vocab
+        if with_added_tokens {
+            self.get_vocab(true).len()


Why not use max(vocab_id) instead?

To account for potential holes 😢

And if we use max, we have to convert u32 to usize or return usize

Narsil

LGTM.

As said internally, I didn't have time to fully review, but most of my initial worries are addressed:

is_special_token -> special is making things more uniform.
The test breaking change is also fixing some other subtle bug within transformers when playing with special tokens (and we're releasing a breaking version anyway).

The rest looks OK.

ArthurZucker added 4 commits September 1, 2023 18:41

updates

345b4eb

fix one test?

6cca571

fix some tests

2dca476

clippy

db31949

ArthurZucker added 25 commits September 1, 2023 19:03

correctly compute the new id: we take the max of the AddedToken + get…

2b72017

…_vocab_size

fix and update tes

399c6fe

update, // AddedTokens can be updated if value changed

d1566a9

fmt

fdef4a1

clean derive partial eq

587748a

update init and src for bingings python

9f0c703

fix build

39bd27e

fix more tests

d9829cd

make content writable in python

a53dff9

updates

b117ac7

cliipy

d4008b0

nits

c599db1

update and todo

a59bb76

fmt

9aab096

clippy

b235f85

python stub.py

2291c89

make special editable as well

058e34b

styling

93b37f3

update

e5fc051

add support for get_added_tokens_decoder

f1da83f

update the get_vocab_size to compute actual length of the `get_voca…

531b06f

…b` function

make tests happy

08af8ea

nits

c3fa75f

#[allow(dead_code)] // Suppress the "method is never used" warning

b57e1c3

style

26fdfc2

ArthurZucker added 2 commits September 5, 2023 16:43

linting

f435af8

python stub.py

a7ace44

ArthurZucker marked this pull request as ready for review September 5, 2023 17:39

ArthurZucker requested a review from Narsil September 5, 2023 17:39

get_added_tokens_decoder returns BTREEMap

efec086

Narsil reviewed Sep 6, 2023

View reviewed changes

Narsil approved these changes Sep 7, 2023

View reviewed changes

ArthurZucker merged commit 3dce63f into huggingface:main Sep 7, 2023

ArthurZucker deleted the update-added-tokens branch September 7, 2023 10:48

ArthurZucker restored the update-added-tokens branch September 9, 2023 03:32

ArthurZucker deleted the update-added-tokens branch September 9, 2023 03:32

DOGEwbx mentioned this pull request Oct 10, 2023

Different behaviour of BPE encoder after update to 0.14.1 #1358

Closed

ArthurConmy mentioned this pull request Oct 13, 2023

[Bug Report] tokenizers>=0.14 breaks NeelNanda/gpt-neox-tokenizer-digits TransformerLensOrg/TransformerLens#404

Closed

1 task

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Update added tokens #1335

Update added tokens #1335

ArthurZucker commented Sep 1, 2023 •

edited

Loading

HuggingFaceDocBuilderDev commented Sep 1, 2023 •

edited

Loading

Narsil Sep 6, 2023

ArthurZucker Sep 6, 2023

ArthurZucker Sep 6, 2023

Narsil left a comment

Update added tokens #1335

Update added tokens #1335

Conversation

ArthurZucker commented Sep 1, 2023 • edited Loading

What does this PR do?

HuggingFaceDocBuilderDev commented Sep 1, 2023 • edited Loading

Narsil Sep 6, 2023

Choose a reason for hiding this comment

ArthurZucker Sep 6, 2023

Choose a reason for hiding this comment

ArthurZucker Sep 6, 2023

Choose a reason for hiding this comment

Narsil left a comment

Choose a reason for hiding this comment

ArthurZucker commented Sep 1, 2023 •

edited

Loading

HuggingFaceDocBuilderDev commented Sep 1, 2023 •

edited

Loading