Byte-Offset Tokenizer

Tokenizer for our byte based transformer model. See: https://huggingface.co/SzegedAI/charmen-electra

Installation

pip install git+https://github.com/szegedai/byte-offset-tokenizer.git

Usage

from byte_offset_tokenizer import ByteOffsetTokenizer

tokenizer = ByteOffsetTokenizer()
tokenizer('Példa mondat!')

Output:

{'input_ids': [array([3, 3, 3, ..., 0, 0, 0])], 'attention_mask': [array([ True,  True,  True, ..., False, False, False])], 'token_type_ids': [array([0, 0, 0, ..., 0, 0, 0])]}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
byte_offset_tokenizer		byte_offset_tokenizer
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.cfg		setup.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Byte-Offset Tokenizer

Installation

Usage

About

Releases

Packages

Languages

szegedai/byte-offset-tokenizer

Folders and files

Latest commit

History

Repository files navigation

Byte-Offset Tokenizer

Installation

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages