zero_nlp icon indicating copy to clipboard operation
zero_nlp copied to clipboard

chinese bloom的默认padding side为什么改成了right

Open DZ9 opened this issue 1 year ago • 1 comments

bloom默认的padding side是left,为什么在Chinese bloom系列里面,默认的padding side都改成了right?如果我改回left去训练,会对模型造成影响吗?

{
   "add_prefix_space": false,
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "model_max_length": 2048,
   "pad_token": "<pad>",
   "padding_side": "right",
   "tokenizer_class": "BloomTokenizer",
   "unk_token": "<unk>"
   }

chinese_bloom_7b_chat_v3

DZ9 avatar Jun 13 '23 07:06 DZ9

本质上就是为了控制文本长度:保证padding_sidetruncation_side相同侧就行了。

基本上不影响效果,因为填充的,在训练的时候,都会被ignore掉(用-100忽略) 具体可以参考这个链接https://huggingface.co/docs/transformers/main_classes/tokenizer#transformers.PreTrainedTokenizer.padding_side

yuanzhoulvpi2017 avatar Jun 14 '23 01:06 yuanzhoulvpi2017