piccolo-embedding icon indicating copy to clipboard operation
piccolo-embedding copied to clipboard

微调显存占用异常

Open STHSF opened this issue 5 months ago • 6 comments

你好,我在使用piccolo-embedding代码分别加载stella-mrl-large-zh-v3.5-1792d和tao-8k两种模型分别在3090和A800上对比显存占用存在一些差异,请问这个怎么解释?

分别使用3090和A800加载stella-mrl-large-zh-v3.5-1792d(MAX_LENGTH=512)时显存占用基本符合预期, 3090单卡最大可以支撑112个batch, A800单卡最大可以支撑240个batch。但是加载tao-8k(MAX_LENGTH=8192)出现了不一样的表现, 3090单卡最大可以支撑12个batch,A800单卡最大可以支撑6个batch。

stella-mrl-large-zh-v3.5-1792d的模型大小为1248M和tao-8k的模型大小为1278M,两者的差异只有embedding层的30M差异。

训练过程中的显存占用细节如下:

image

image

STHSF avatar Sep 02 '24 10:09 STHSF