Gavin
Results
3
comments of
Gavin
请问能具体介绍下训练过程中哪些变量会占用较多内存吗?在测试中,我发现程序在后向传播会出现OOM。
请问batch size大小会对微调模型的performance有影响吗?在数据量为5W左右时,batch size取多少合适?
> > 请问能具体介绍下训练过程中哪些变量会占用较多内存吗?在测试中,我发现程序在后向传播会出现OOM。 > > 主要是模型的中间结果,使用gradient checkpointing能大幅降低显存 对于中间结果占用大量内存这一点,请问能提供论文或其它资料吗?我很想知道具体原因