MoE-LLaVA icon indicating copy to clipboard operation
MoE-LLaVA copied to clipboard

finetune阶段内存占用太高

Open awzhgw opened this issue 1 year ago • 2 comments

当我在finetune阶段的时候,

我的机器内存是1.9TB, 当我运行的过程中 内存占用了1.9TB,并且有354个进程在运行。

但是在checkpoint阶段,由于需要额外的内存,因此导致checkpoint被OOM ,进而导致退出。。

这个问题,该怎么解决呢?

awzhgw avatar Feb 09 '24 14:02 awzhgw

我的机器是1T内存,没遇到这个问题。 [En] My server has 1T RAM and it works well.

LinB203 avatar Feb 10 '24 02:02 LinB203

@LinB203 我用的deepspped zero3 offload.json ,并且用的是mixtral 7Bx8的模型。

你的内存占用是多少GB?

awzhgw avatar Feb 11 '24 02:02 awzhgw