openspeech icon indicating copy to clipboard operation
openspeech copied to clipboard

Resuming from a checkpoint that ended before the epoch ended

Open rkskekzzz opened this issue 3 years ago • 2 comments

❓ Questions & Help

epoch 한번이 끝나기 전 런타임이 끊겼는데요. 혹시 이런 상황에선 checkpoint를 불러오는 것이 불가능할까요 아래와 같은 메세지가 떴습니다!

Details

UserWarning: You're resuming from a checkpoint that ended before the epoch ended. This can cause unreliable results if further training is done. Consider using an end-of-epoch checkpoint or enabling fault-tolerant training: https://pytorch-lightning.readthedocs.io/en/stable/advanced/fault_tolerant_training.html
  "You're resuming from a checkpoint that ended before the epoch ended. This can cause unreliable"

rkskekzzz avatar May 09 '22 14:05 rkskekzzz

@rkskekzzz 혹시 저장된 checkpoint가 있다면 해당 옵션으로 다시 학습 진행하시면 됩니다!

https://github.com/openspeech-team/openspeech/blob/main/openspeech/utils.py#L325-L339

upskyy avatar May 10 '22 12:05 upskyy

답변 감사합니다! 저도 해당 옵션으로 실행을 해보았었는데요! gpu-resume에 trainer.checkpoint_path를 지정해둔 상태였고, 총 370000 데이터 중 220000정도에서 끊겼습니다. epoch은 0번째 였습니다.

0_220000.ckpt파일을 불러 학습을 진행했는데, 위와같은 warning이 뜨더니 다시 0/370000에서 시작했습니다. 표시는 이렇게 되더라도 정상적으로 학습이 진행되는 것인지 궁금해서 올려보았습니다!

rkskekzzz avatar May 10 '22 12:05 rkskekzzz