LLaMA-Factory Running tokenizer on dataset 速度逐渐变慢

dataset: xxx eval_dataset: xxx template: qwen2_vl cutoff_len: 4096 max_samples: 5000000 overwrite_cache: true preprocessing_num_workers: 16

训练过程中，Running tokenizer on dataset 的速度逐渐从几百 samples/s 下降到个位数。请教下可能是哪里有问题？

无

Sep 15 '24 13:09 xuyue1112

经过我的实际测试，#5458 应该解决了这个问题

Sep 18 '24 14:09 AlongWY

@AlongWY 我也遇到了同样的问题，但你这个应该是针对packing情况的，如果没有packing应该怎么改呢

经过我的实际测试，#5458 应该解决了这个问题

Oct 26 '24 11:10 Wiselnn570

没有 packing 也会下降到个位数吗？按理说应该不会吧

Oct 28 '24 09:10 AlongWY