Chinese-CLIP icon indicating copy to clipboard operation
Chinese-CLIP copied to clipboard

微调训练的几个疑问

Open skyantao opened this issue 1 year ago • 3 comments

  1. 小样本微调后,是否会影响原来的准确性? 我们实测有影响,场景为:部分图片例如很暗的图片检索会匹配多种语义,所以我们进行了标注,基于数据集进行微调,微调后发现其他图片准确度也下降了

  2. 如果问题1存在,有没有解决办法?

  3. 能否联系微调,例如对成都标志性建筑进行训练,基于训练好的模型A,继续对重庆的标志性建筑训练,得到模型B 以后基于B 就可以持续识别成都和重庆的特定建筑场景

skyantao avatar Jul 19 '23 09:07 skyantao

您好,不知道您指的小样本微调大约是多少数据量,目前我们下游跨模态检索实验中数据规模最小的为COCO-CN数据集,大约有18k训练样本,目前暂时没尝试过更小规模的数据微调的表现。 通常来说,在某一数据集上集中微调后可能会影响其他不同分布的数据集的效果,但在这方面我们没有进行更多的实验。您可以关注下模型是否过拟合小样本,也可以关注一下大模型灾难性遗忘和增量学习等相关的资料。 对于连续微调,不知道是不是可以尝试一下将所有数据(例如成都重庆总和)集中进行微调来代替连续微调看看效果。

DtYXs avatar Jul 29 '23 07:07 DtYXs

这个微调的量级有要求吗,我手上只有200张数据可以微调吗,我尝试loss 是0

wwangxinhao avatar Dec 14 '23 08:12 wwangxinhao

您好,不知道您指的小样本微调大约是多少数据量,目前我们下游跨模态检索实验中数据规模最小的为COCO-CN数据集,大约有18k训练样本,目前暂时没尝试过更小规模的数据微调的表现。 通常来说,在某一数据集上集中微调后可能会影响其他不同分布的数据集的效果,但在这方面我们没有进行更多的实验。您可以关注下模型是否过拟合小样本,也可以关注一下大模型灾难性遗忘和增量学习等相关的资料。 对于连续微调,不知道是不是可以尝试一下将所有数据(例如成都重庆总和)集中进行微调来代替连续微调看看效果。

您好,我使用4000张图像进行微调后,将一张图和一个文本(人工判定不匹配)进行相似度测试,测试结果显示相似,这是什么原因呢?

llliiiu avatar Jan 11 '24 07:01 llliiiu