Simplify TokenizerArgs __post_init__: Unnecessarily verbose

### 🚀 The feature, motivation and pitch

`TokenizerArgs.__post_init__` has grown quite verbose/redundant and could use a bit of simplification

https://github.com/pytorch/torchchat/blob/1384f7d3d7af0847d8364fe7b300a8b49f2213c2/torchchat/cli/builder.py#L244-L289

Task: Simplify the logic in __post_init__ to reduce redundancy
---
To test, run a model with each tokenizer type:
- python torchchat.py generate llama2
- python torchchat.py generate llama3
- python torchchat.py generate granite-code

### Alternatives

_No response_

### Additional context

_No response_

### RFC (Optional)

_No response_

	class TokenizerArgs:
	tokenizer_path: Optional[Union[Path, str]] = None
	is_sentencepiece: bool = False
	is_tiktoken: bool = False
	is_hf_tokenizer: bool = False
	t: Optional[Any] = None

	def __post_init__(self):
	try:
	from tokenizer.tiktoken import Tokenizer as TiktokenTokenizer

	self.t = TiktokenTokenizer(model_path=str(self.tokenizer_path))
	self.is_tiktoken = True
	self.is_sentencepiece = False
	self.is_hf_tokenizer = False
	return
	except:
	pass

	try:
	from sentencepiece import SentencePieceProcessor

	self.t = SentencePieceProcessor(model_file=str(self.tokenizer_path))
	self.is_tiktoken = False
	self.is_sentencepiece = True
	self.is_hf_tokenizer = False
	return
	except:
	pass

	try:
	from tokenizer.hf_tokenizer import HFTokenizer

	self.t = HFTokenizer(str(self.tokenizer_path))
	self.is_tiktoken = False
	self.is_sentencepiece = False
	self.is_hf_tokenizer = True
	return
	except:
	pass

	self.is_tiktoken = False
	self.is_sentencepiece = False
	self.is_hf_tokenizer = False
	self.t = None
	return

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Simplify TokenizerArgs __post_init__: Unnecessarily verbose #1518

🚀 The feature, motivation and pitch

Task: Simplify the logic in post_init to reduce redundancy

Alternatives

Additional context

RFC (Optional)

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Simplify TokenizerArgs __post_init__: Unnecessarily verbose #1518

Description

🚀 The feature, motivation and pitch

Task: Simplify the logic in post_init to reduce redundancy

Alternatives

Additional context

RFC (Optional)

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions