parsner Roberta Tokenizer

Roberta Tokenizer

Open dehghanm opened this issue 2 years ago • 0 comments

I want to use Roberta Tokenizer. In the following, there is an example that shows how we can do this.

from transformers import AutoTokenizer model_name = "HooshvareLab/roberta-fa-zwnj-base" tokenizer = AutoTokenizer.from_pretrained(model_name) string = "این یک سند است" tokenized_string = tokenizer.tokenize(string) print(tokenized_string)

The result of the above code is as follows: ['Ø§ÛĮÙĨ', 'ĠÛĮÚ©', 'ĠØ³ÙĨØ¯', 'ĠØ§Ø³Øª'] However, it should be: ["این", "یک", "سند" , "است"] What is your idea to solve this issue?

Sep 03 '22 19:09 dehghanm

parsner parsner copied to clipboard

Roberta Tokenizer

parsner
parsner copied to clipboard