piccolo-embedding 微调显存占用异常

微调显存占用异常

Open STHSF opened this issue 5 months ago • 6 comments

你好，我在使用piccolo-embedding代码分别加载stella-mrl-large-zh-v3.5-1792d和tao-8k两种模型分别在3090和A800上对比显存占用存在一些差异，请问这个怎么解释？

分别使用3090和A800加载stella-mrl-large-zh-v3.5-1792d（MAX_LENGTH=512）时显存占用基本符合预期， 3090单卡最大可以支撑112个batch， A800单卡最大可以支撑240个batch。但是加载tao-8k（MAX_LENGTH=8192）出现了不一样的表现， 3090单卡最大可以支撑12个batch，A800单卡最大可以支撑6个batch。

stella-mrl-large-zh-v3.5-1792d的模型大小为1248M和tao-8k的模型大小为1278M，两者的差异只有embedding层的30M差异。

训练过程中的显存占用细节如下：

Sep 02 '24 10:09 STHSF

piccolo-embedding piccolo-embedding copied to clipboard

微调显存占用异常

piccolo-embedding
piccolo-embedding copied to clipboard