CogVLM2 关于微调的问题

Feature request / 功能建议

请问文档中的仅提供对话模型微调示例，是只能微调对话模型吗，视觉模型可以微调吗

Motivation / 动机

补充微调模型

Your contribution / 您的贡献

无

Jun 12 '24 08:06 pange1802703882

目前的显存用peft调不动VIT混合的部分，显存会炸，所以我们有规划放出SAT的微调版本，能够微调全部参数

Jun 13 '24 01:06 zRzRzRzRzRzRzR

目前的显存用peft调不动VIT混合的部分，显存会炸，所以我们有规划放出SAT的微调版本，能够微调全部参数

一般LORA微调大模型显存大概参数量的3倍左右，但是我们按照微调脚本，4*48G的卡都跑不起来

Jun 14 '24 09:06 liHai001

因为这个模型的微调脚本时数据并行的，没有办法做zero3或者tensor并行（目前的forward不支持），所以48G就是48G，多少x48G还是48G，因为模型也复制了那么多个载入在不同的卡

Jun 15 '24 04:06 zRzRzRzRzRzRzR

因为这个模型的微调脚本时数据并行的，没有办法做zero3或者tensor并行（目前的forward不支持），所以48G就是48G，多少x48G还是48G，因为模型也复制了那么多个载入在不同的卡

目前的forward对 zero-3也不支持吗？ zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。

Jun 17 '24 02:06 Mike575

因为这个模型的微调脚本时数据并行的，没有办法做zero3或者tensor并行（目前的forward不支持），所以48G就是48G，多少x48G还是48G，因为模型也复制了那么多个载入在不同的卡

目前的forward对 zero-3也不支持吗？ zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。

是不是因为他网络结构attention里，大模型和视觉专家的Q和K分别计算，再汇总计算比如拼接啥的，这一步逻辑不太能拆分成分片计算？

Jun 17 '24 06:06 liHai001

CogVLM2 CogVLM2 copied to clipboard

关于微调的问题

Feature request / 功能建议

Motivation / 动机

Your contribution / 您的贡献

CogVLM2
CogVLM2 copied to clipboard