CogVLM2 icon indicating copy to clipboard operation
CogVLM2 copied to clipboard

关于微调的问题

Open pange1802703882 opened this issue 1 year ago • 5 comments

Feature request / 功能建议

请问文档中的仅提供对话模型微调示例,是只能微调对话模型吗,视觉模型可以微调吗

Motivation / 动机

补充微调模型

Your contribution / 您的贡献

pange1802703882 avatar Jun 12 '24 08:06 pange1802703882

目前的显存用peft调不动VIT混合的部分,显存会炸,所以我们有规划放出SAT的微调版本,能够微调全部参数

zRzRzRzRzRzRzR avatar Jun 13 '24 01:06 zRzRzRzRzRzRzR

目前的显存用peft调不动VIT混合的部分,显存会炸,所以我们有规划放出SAT的微调版本,能够微调全部参数

一般LORA微调大模型显存大概参数量的3倍左右,但是我们按照微调脚本,4*48G的卡都跑不起来

liHai001 avatar Jun 14 '24 09:06 liHai001

因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡

zRzRzRzRzRzRzR avatar Jun 15 '24 04:06 zRzRzRzRzRzRzR

因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡

目前的forward对 zero-3也不支持吗? zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。

Mike575 avatar Jun 17 '24 02:06 Mike575

因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡

目前的forward对 zero-3也不支持吗? zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。

是不是因为他网络结构attention里,大模型和视觉专家的Q和K分别计算,再汇总计算比如拼接啥的,这一步逻辑不太能拆分成分片计算?

liHai001 avatar Jun 17 '24 06:06 liHai001