GYxiaOH

Results 24 comments of GYxiaOH

> 对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降 感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B

> 对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降 另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

> > > 对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降 > > > > > > 另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗 > > 训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块 👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

> > > > > 对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降 > > > > > > > > > > > > 另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗 > > > > > > > > > 训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块...