InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

想问下,模型pretrain的时候用了那个类似UHD的切图吗?

Open GYxiaOH opened this issue 1 year ago • 6 comments

如题。。如果pretrain就把图片切那么多份,训练成本是不是有些cover不住

GYxiaOH avatar May 14 '24 01:05 GYxiaOH

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

czczup avatar May 16 '24 05:05 czczup

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B

GYxiaOH avatar May 16 '24 06:05 GYxiaOH

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

GYxiaOH avatar May 16 '24 06:05 GYxiaOH

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B

Yi34B效果确实好,我们跑的新的40B模型,点数比现在开源的这个26B的有大幅提升,每个数据集都涨了好几个点,就是那个太大了估计也没什么人跑得动,所以还没放出来。

czczup avatar May 16 '24 06:05 czczup

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

czczup avatar May 16 '24 06:05 czczup

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

GYxiaOH avatar May 17 '24 06:05 GYxiaOH

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。

czczup avatar May 30 '24 16:05 czczup

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。

是的我们测试也是这样,但是之前一篇论文是说base好一点。。感谢回复 问题关闭了

GYxiaOH avatar Jun 04 '24 02:06 GYxiaOH