transformers_tasks
transformers_tasks copied to clipboard
请教关于Tokenizer的问题
自制jsonl中,含有()这种符号无法识别。 我理解,本repo按照bert token的格式来做的,所以具体逻辑可以介绍下吗? 感谢
Hi,如果您需要扩展 special token 可以尝试下使用下面这种方式:
special_tokens = ['(', ')']
tokenizer.add_tokens(special_tokens, special_tokens=True)
model.resize_token_embeddings(len(tokenizer))