InternVL
InternVL copied to clipboard
想问下,模型pretrain的时候用了那个类似UHD的切图吗?
如题。。如果pretrain就把图片切那么多份,训练成本是不是有些cover不住
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B
Yi34B效果确实好,我们跑的新的40B模型,点数比现在开源的这个26B的有大幅提升,每个数据集都涨了好几个点,就是那个太大了估计也没什么人跑得动,所以还没放出来。
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗
训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗
训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块
👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗
训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块
👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗
我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗
训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块
👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗
我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。
是的我们测试也是这样,但是之前一篇论文是说base好一点。。感谢回复 问题关闭了