FlagEmbedding
FlagEmbedding copied to clipboard
deepspeed训练m3模型,OOM
四卡40gH卡,batch开32,开了gradient_checkpointing,query_max_len 512 ,passage_max_len 8192 训着训着会突然OOM,求问稳定的解决方案,(尝试了batch开4,16,32都会炸)