InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

断点继续训练数据加载问题-IterableDataset的问题

Open Zxr1314 opened this issue 9 months ago • 1 comments

这个部分目前是否支持保存数据的state_dict呢,或者未来有计划支持么,不然训练过程中中断可能会导致数据重复训练(影响性能)/从头过一遍数据再训练(耗费时间)

Zxr1314 avatar Mar 23 '25 06:03 Zxr1314

你好,

当前代码支持每一步保存模型权重,可以参考参数save_steps。并且支持resume_ckpt,可以参考训练代码1097行。 这是Trainer实现的功能,会从对应step继续向后训练,代码seed前后一致可以避免数据重复训练。

yuecao0119 avatar Mar 27 '25 09:03 yuecao0119