Peiyu Zhuang
Peiyu Zhuang
请问你是如何加载的呢?代码中有加载模型的代码,建议你试试看。
除了计算AUC不用二值化之外,计算其它指标时,阈值都设置0.5。是每一张图片二值化之后,计算指标,然后多张图像的指标求平均。
如果已经从0-1的概率图转为0-255的像素值,那么0.5*255作为阈值,大于127就是255,否则就为0。其他模型一般输出的结果都是0-1的概率值,这个时候就用0.5作为阈值处理就行了。
AUC每张计算出来的结果求平均,我代码里面有对其他metric的计算方式,auc你直接用sklearn里面的roc_auc_score去计算就行了。
> > > > 您好,Qwen-VL是可以在更大的分辨率上进行微调的,且有可能在特定任务上带来一定的性能提升。不过,对于1920x1080这种量级的分辨率,ViT的Token数量会多很多,因此微调需要的显存也会大幅增加。 > > > > > > > > > 感谢回复。显存问题可以暂不考虑,实在不行稍微小一些也是能接受。可以简述一下微调方案吗?想快速在特定任务上验证一下。感谢 > > > > > > 您好,原则上您只需要修改HuggingFace Model中config.json文件的"visual"部分中的"image_size",然后按照现有的微调教程微调即可。如果遇到任何错误欢迎继续提问! > > 尝试按照这种方式用少量样本(个位数)进行qwen-vl-chat的finetune,模型能够收敛,但是在训练样本上进行测试发现效果并不好,尤其是目标定位的能力。还有就是容易乱说。。 我这边也是遇到相同的问题,用finetune_lora_single_gpu去训练自己的目标检测的数据,只训练30条样本,让模型能在上面过拟合,然后去测试这30条数据的时候,发现模型输出的结果也都很差,很多情况下在乱说,不知道您那边后面找到具体的原因了吗?