断点继续训练数据加载问题-IterableDataset的问题

Open Zxr1314 opened this issue 9 months ago • 1 comments

这个部分目前是否支持保存数据的state_dict呢，或者未来有计划支持么，不然训练过程中中断可能会导致数据重复训练（影响性能）/从头过一遍数据再训练（耗费时间）

Mar 23 '25 06:03 Zxr1314

你好，

当前代码支持每一步保存模型权重，可以参考参数save_steps。并且支持resume_ckpt，可以参考训练代码1097行。这是Trainer实现的功能，会从对应step继续向后训练，代码seed前后一致可以避免数据重复训练。

Mar 27 '25 09:03 yuecao0119