zero_nlp
zero_nlp copied to clipboard
chinese bloom的默认padding side为什么改成了right
bloom默认的padding side是left,为什么在Chinese bloom系列里面,默认的padding side都改成了right?如果我改回left去训练,会对模型造成影响吗?
{
"add_prefix_space": false,
"bos_token": "<s>",
"clean_up_tokenization_spaces": false,
"eos_token": "</s>",
"model_max_length": 2048,
"pad_token": "<pad>",
"padding_side": "right",
"tokenizer_class": "BloomTokenizer",
"unk_token": "<unk>"
}
本质上就是为了控制文本长度:保证padding_side
和truncation_side
相同侧就行了。
基本上不影响效果,因为填充的,在训练的时候,都会被ignore掉(用-100忽略) 具体可以参考这个链接https://huggingface.co/docs/transformers/main_classes/tokenizer#transformers.PreTrainedTokenizer.padding_side