Yufan CHEN

Results 3 comments of Yufan CHEN

> Hi yes will update the code to support manual annotation training but I am afraid that I may not have time to clean up the code in recent days...

> > > > 您好,Qwen-VL是可以在更大的分辨率上进行微调的,且有可能在特定任务上带来一定的性能提升。不过,对于1920x1080这种量级的分辨率,ViT的Token数量会多很多,因此微调需要的显存也会大幅增加。 > > > > > > > > > 感谢回复。显存问题可以暂不考虑,实在不行稍微小一些也是能接受。可以简述一下微调方案吗?想快速在特定任务上验证一下。感谢 > > > > > > 您好,原则上您只需要修改HuggingFace Model中config.json文件的"visual"部分中的"image_size",然后按照现有的微调教程微调即可。如果遇到任何错误欢迎继续提问! > > 尝试按照这种方式用少量样本(个位数)进行qwen-vl-chat的finetune,模型能够收敛,但是在训练样本上进行测试发现效果并不好,尤其是目标定位的能力。还有就是容易乱说。。 请问只要下载模型然后修改config.json里的这一个参数就可以了吗,能否说明一下详细的过程,我目前再寻找使用更高分辨率vit的方法,非常感谢!