CogVLM2
CogVLM2 copied to clipboard
关于微调的问题
Feature request / 功能建议
请问文档中的仅提供对话模型微调示例,是只能微调对话模型吗,视觉模型可以微调吗
Motivation / 动机
补充微调模型
Your contribution / 您的贡献
无
目前的显存用peft调不动VIT混合的部分,显存会炸,所以我们有规划放出SAT的微调版本,能够微调全部参数
目前的显存用peft调不动VIT混合的部分,显存会炸,所以我们有规划放出SAT的微调版本,能够微调全部参数
一般LORA微调大模型显存大概参数量的3倍左右,但是我们按照微调脚本,4*48G的卡都跑不起来
因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡
因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡
目前的forward对 zero-3也不支持吗? zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。
因为这个模型的微调脚本时数据并行的,没有办法做zero3或者tensor并行(目前的forward不支持),所以48G就是48G,多少x48G还是48G,因为模型也复制了那么多个载入在不同的卡
目前的forward对 zero-3也不支持吗? zero-3可以将模型、梯度、优化器参数都分割到不同的GPU。
是不是因为他网络结构attention里,大模型和视觉专家的Q和K分别计算,再汇总计算比如拼接啥的,这一步逻辑不太能拆分成分片计算?