swift icon indicating copy to clipboard operation
swift copied to clipboard

多模态 minicpmv2的训练,使用的尺寸是多大,原始minicpm v-2的训练尺寸可以很大,查看源码只看到minicpmv2的输入尺寸是448,训练和推理时对于大图会在原图上进行处理吗,还是会统一直接resize缩放到448?

Open zhly0 opened this issue 2 months ago • 2 comments

多模态 minicpmv2的训练,使用的尺寸是多大,原始minicpm v-2的训练尺寸可以很大,查看源码只看到minicpmv2的输入尺寸是448,训练和推理时对于大图会在原图上进行处理吗,还是会统一直接resize缩放到448?

zhly0 avatar Apr 23 '24 01:04 zhly0

在请教一下 有单独训练视觉模块图生文的代码不

zhangfan-algo avatar Apr 24 '24 05:04 zhangfan-algo

@Jintao-Huang,能帮忙看下吗

zhly0 avatar Apr 29 '24 05:04 zhly0