MoE-LLaVA
MoE-LLaVA copied to clipboard
finetune阶段内存占用太高
当我在finetune阶段的时候,
我的机器内存是1.9TB, 当我运行的过程中 内存占用了1.9TB,并且有354个进程在运行。
但是在checkpoint阶段,由于需要额外的内存,因此导致checkpoint被OOM ,进而导致退出。。
这个问题,该怎么解决呢?
我的机器是1T内存,没遇到这个问题。 [En] My server has 1T RAM and it works well.
@LinB203 我用的deepspped zero3 offload.json ,并且用的是mixtral 7Bx8的模型。
你的内存占用是多少GB?