InternVL 想问下，模型pretrain的时候用了那个类似UHD的切图吗？

如题。。如果pretrain就把图片切那么多份，训练成本是不是有些cover不住

May 14 '24 01:05 GYxiaOH

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

May 16 '24 05:05 czczup

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

感谢分享，你们卡真是充足（笑），另外问下为什么从Y i-34B切换回internLM2 20B了，按照论文的理论，越大的LLM应该和Intern vit6B配合的越好啊？而且从其他一些数据上Yi34B确实效果好于20B

May 16 '24 06:05 GYxiaOH

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

May 16 '24 06:05 GYxiaOH

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

感谢分享，你们卡真是充足（笑），另外问下为什么从Y i-34B切换回internLM2 20B了，按照论文的理论，越大的LLM应该和Intern vit6B配合的越好啊？而且从其他一些数据上Yi34B确实效果好于20B

Yi34B效果确实好，我们跑的新的40B模型，点数比现在开源的这个26B的有大幅提升，每个数据集都涨了好几个点，就是那个太大了估计也没什么人跑得动，所以还没放出来。

May 16 '24 06:05 czczup

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

May 16 '24 06:05 czczup

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

May 17 '24 06:05 GYxiaOH

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练，我有试过对比base模型和chat模型，chat模型的benchmark点数更高。

May 30 '24 16:05 czczup

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练，我有试过对比base模型和chat模型，chat模型的benchmark点数更高。

是的我们测试也是这样，但是之前一篇论文是说base好一点。。感谢回复问题关闭了

Jun 04 '24 02:06 GYxiaOH

InternVL InternVL copied to clipboard

想问下，模型pretrain的时候用了那个类似UHD的切图吗？

InternVL
InternVL copied to clipboard