piccolo-embedding
piccolo-embedding copied to clipboard
微调显存占用异常
你好,我在使用piccolo-embedding代码分别加载stella-mrl-large-zh-v3.5-1792d和tao-8k两种模型分别在3090和A800上对比显存占用存在一些差异,请问这个怎么解释?
分别使用3090和A800加载stella-mrl-large-zh-v3.5-1792d(MAX_LENGTH=512)时显存占用基本符合预期, 3090单卡最大可以支撑112个batch, A800单卡最大可以支撑240个batch。但是加载tao-8k(MAX_LENGTH=8192)出现了不一样的表现, 3090单卡最大可以支撑12个batch,A800单卡最大可以支撑6个batch。
stella-mrl-large-zh-v3.5-1792d的模型大小为1248M和tao-8k的模型大小为1278M,两者的差异只有embedding层的30M差异。
训练过程中的显存占用细节如下: