LLaMA-Factory icon indicating copy to clipboard operation
LLaMA-Factory copied to clipboard

streaming模式和非streaming模式下模型指标差异巨大

Open zhangbin1997 opened this issue 10 months ago • 4 comments

Reminder

  • [ ] I have read the README and searched the existing issues.

Reproduction

如题,streaming模式和非streaming模式下训练出来的模型指标差异巨大,请问这个是正常的吗? 全参数训练,streaming模式下num_worker都是1,非streaming模式下num_worker都是64。 我是把多个来源的数据按照顺序合并成了一个文件,训练时只有这一个数据,streaming模式下模型loss波动非常大,但非streaming模式下模型loss正常收敛。

Expected behavior

No response

System Info

No response

Others

No response

zhangbin1997 avatar Apr 25 '24 08:04 zhangbin1997

混合之后把数据 shuffle 一下再用 streaming 训练

hiyouga avatar Apr 25 '24 09:04 hiyouga

但因为我的策略就是需要每个数据集依次排列,所以说没法全局shuffle呢。 请问streaming模式和非streaming模式下本身数据训练的顺序就会明显不一样吗?

zhangbin1997 avatar Apr 25 '24 09:04 zhangbin1997

非 streaming 模式会 shuffle 整个训练数据集

hiyouga avatar Apr 25 '24 09:04 hiyouga

也就是非 streaming 模式会 shuffle 整个训练数据集,streaming 模式只是在sample data 时候会在buffersize内进行 shuffle?

merlinarer avatar Apr 25 '24 20:04 merlinarer