Aloha0424
Results
1
comments of
Aloha0424
这个问题在输入内容长度太长时会出现,原因是在encode时先做了特殊token的拼接再截断,导致截断后,拼接的特殊token 150001 150004丢掉了。快速的修复方式是直接在tokenize_dataset_rows.py preprocess函数中将 prompt_ids处理下,把最后2个id改为150001 150004 prompt_ids[-2] = 150001 prompt_ids[-1] = 150004