Ita Zaporozhets issues

Results 8 issues of


                                            Ita Zaporozhets

Add split special tokens

# What does this PR do? Fixes #30685 #28648 ## Before submitting - [ ] make sure this is saved and used not only as kwargs but also the attribute...

Origin/clean spm ita2

# What does this PR do? Fixes # (issue) ## Before submitting - [ ] This PR fixes a typo or improves the docs (you can dismiss the other checks...

Support reading tiktoken tokenizer.model file

Use existing TikTokenConverter to convert tiktoken tokenizer.model file. Sample Usage: ``` model_file_name = 'tokenizer.model' tokenizer = AutoTokenizer.from_pretrained('hf-internal-testing/Llama3-Instruct-Internal', tiktoken_file=model_file_name, from_slow=True) ``` - [x] add case to convert_tiktoken_tokenizer - [x] add internal...

adding user defined tokens #30824

Fixes #30824 #30947 ## Tasks - [ ] fix converter to handle user_defined_symbols - [ ] create necessary flags for user_defined_symbols - [ ] update docs - [ ] test...

SPLIT PR: eos bos tokens

Fix for 2 issues: 1. `add_bos_token` & `add_eos_token` flags ignored for `PreTrainedTokenizerFast`: issue discussed [here](https://huggingface.co/meta-llama/Meta-Llama-3-8B/discussions/140) and [here](https://github.com/huggingface/transformers/issues/30947#issuecomment-2128057992) 2. `add_special_tokens` does not update `bos_token` or `eos_token` - ex `.add_special_tokens({'bos_token': ''})` TASKS:...

Ita Zaporozhets

Add split special tokens

Origin/clean spm ita2

Support reading tiktoken tokenizer.model file

adding user defined tokens #30824

SPLIT PR: eos bos tokens

support loading model without config.json file

Load a pretrainedfast tokenizer if fast=true and tokenizer.json exists

blt wip