openspeech
openspeech copied to clipboard
Resuming from a checkpoint that ended before the epoch ended
❓ Questions & Help
epoch 한번이 끝나기 전 런타임이 끊겼는데요. 혹시 이런 상황에선 checkpoint를 불러오는 것이 불가능할까요 아래와 같은 메세지가 떴습니다!
Details
UserWarning: You're resuming from a checkpoint that ended before the epoch ended. This can cause unreliable results if further training is done. Consider using an end-of-epoch checkpoint or enabling fault-tolerant training: https://pytorch-lightning.readthedocs.io/en/stable/advanced/fault_tolerant_training.html
"You're resuming from a checkpoint that ended before the epoch ended. This can cause unreliable"
@rkskekzzz 혹시 저장된 checkpoint가 있다면 해당 옵션으로 다시 학습 진행하시면 됩니다!
https://github.com/openspeech-team/openspeech/blob/main/openspeech/utils.py#L325-L339
답변 감사합니다! 저도 해당 옵션으로 실행을 해보았었는데요! gpu-resume에 trainer.checkpoint_path를 지정해둔 상태였고, 총 370000 데이터 중 220000정도에서 끊겼습니다. epoch은 0번째 였습니다.
0_220000.ckpt파일을 불러 학습을 진행했는데, 위와같은 warning이 뜨더니 다시 0/370000에서 시작했습니다. 표시는 이렇게 되더라도 정상적으로 학습이 진행되는 것인지 궁금해서 올려보았습니다!