InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

关于InternVL定位多类别时的问题

Open daihuidai opened this issue 10 months ago • 2 comments

您好,我根据官方文档制作了V3Det格式的问答结构,正常训练、推理,对于一张图片只有一类目标时基本可以正常检测到,这一类不论一个或多个目标大部分可以检测出来,例如一个人、五个人都能检测出来。 但是如果一张图出现多个类别时,就只能检测出一个类别,例如训练包含了人和车,一张图有两个人、两辆车,就只能检测出其中一个类别的所有目标。

训练较为充分,数据量也不少。

训练问答样例结构如下: {"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}

这个问题困扰了很久,我尝试了很多问答结构都没法解决多类别的检测,请问这是什么问题呢?

我考虑过下面几种情况: 1:训练代码只读取了第一个类别的box; 2:训练的损失函数; 3:模型的输出问题;

daihuidai avatar Feb 10 '25 08:02 daihuidai

Hi, 可以构造成多轮对话,每一次检测一个类别。

lll2343 avatar Feb 11 '25 04:02 lll2343

您好,对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景,我看官方提供的V3Det样例就是多类别同时检测,说明模型应该是支持的。 请问如果要同时检测多类别除了数据按V3Det构造,其他方面应该如何修改呢?

daihuidai avatar Feb 11 '25 05:02 daihuidai

你好,我现在也有类似任务需要训练,请问大佬问题有得到解决吗,方便分享一下不,感谢

zzk88862 avatar May 29 '25 10:05 zzk88862

@zzk88862 没有,这类多模态模型对这种任务本身支持效果就差,是模型结构和训练方式的原因,如果是高召回率的需求建议换种方式。

daihuidai avatar Jun 11 '25 03:06 daihuidai