xtuner
xtuner copied to clipboard
数据在入过程中样本量减少
如图,原本有3w多样本, 最后就只有4k多,该如何定位该问题? 脚本如下: rm -rf llama3_finetune_pth/* output_dir=llama3_finetune_pth config_py=xtuner/configs/llama/llama3_8b_instruct/llama3_8b_instruct_qlora_alpaca_e3.py CUDA_VISIBLE_DEVICES=0,1 NPROC_PER_NODE=2 xtuner train ${config_py} --work-dir ${output_dir} --deepspeed deepspeed_zero2 --seed 1024
XTuner 默认会拼接数据至 max length 以提升 gpu 利用率,导致实际 iter 和数据条数不符
https://xtuner.readthedocs.io/zh-cn/docs/acceleration/pack_to_max_length.html
懂了,多谢解答