这个部分目前是否支持保存数据的state_dict呢,或者未来有计划支持么,不然训练过程中中断可能会导致数据重复训练(影响性能)/从头过一遍数据再训练(耗费时间)
你好,
当前代码支持每一步保存模型权重,可以参考参数save_steps。并且支持resume_ckpt,可以参考训练代码1097行。 这是Trainer实现的功能,会从对应step继续向后训练,代码seed前后一致可以避免数据重复训练。