deepcoldfish issues

Repositories
Issues
Comments

Results 1 issues of


                                            deepcoldfish

while using megatron distributed flash-checkpoint to recovery, error ocurs when load_checkpoint

**Env:** 16GPUs + llama2 pretrain+ megatron-lm **strategy:** TP 8 + PP 1 + DP 2 **case:** when killing a training proceess to retrigger fault-tollerence with megatron-distributed flash-checkpoint，the dp 1 group...

investigating