LLaMA-Factory
LLaMA-Factory copied to clipboard
streaming模式和非streaming模式下模型指标差异巨大
Reminder
- [ ] I have read the README and searched the existing issues.
Reproduction
如题,streaming模式和非streaming模式下训练出来的模型指标差异巨大,请问这个是正常的吗? 全参数训练,streaming模式下num_worker都是1,非streaming模式下num_worker都是64。 我是把多个来源的数据按照顺序合并成了一个文件,训练时只有这一个数据,streaming模式下模型loss波动非常大,但非streaming模式下模型loss正常收敛。
Expected behavior
No response
System Info
No response
Others
No response
混合之后把数据 shuffle 一下再用 streaming 训练
但因为我的策略就是需要每个数据集依次排列,所以说没法全局shuffle呢。 请问streaming模式和非streaming模式下本身数据训练的顺序就会明显不一样吗?
非 streaming 模式会 shuffle 整个训练数据集
也就是非 streaming 模式会 shuffle 整个训练数据集,streaming 模式只是在sample data 时候会在buffersize内进行 shuffle?