LMOps
LMOps copied to clipboard
训练过程中CUDA out of memory
我在4张A100上使用4卡模型并行训练,student是llama3-8b,teacher是llama3-70b,使用ds_config_zero2_offload运行成功时4张A100的GPU占用为47g/80g,在训练过程中会出现CUDA out of memory,请问如何解决这一问题