关于InternVL定位多类别时的问题
您好,我根据官方文档制作了V3Det格式的问答结构,正常训练、推理,对于一张图片只有一类目标时基本可以正常检测到,这一类不论一个或多个目标大部分可以检测出来,例如一个人、五个人都能检测出来。 但是如果一张图出现多个类别时,就只能检测出一个类别,例如训练包含了人和车,一张图有两个人、两辆车,就只能检测出其中一个类别的所有目标。
训练较为充分,数据量也不少。
训练问答样例结构如下:
{"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}
这个问题困扰了很久,我尝试了很多问答结构都没法解决多类别的检测,请问这是什么问题呢?
我考虑过下面几种情况: 1:训练代码只读取了第一个类别的box; 2:训练的损失函数; 3:模型的输出问题;
Hi, 可以构造成多轮对话,每一次检测一个类别。
您好,对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景,我看官方提供的V3Det样例就是多类别同时检测,说明模型应该是支持的。 请问如果要同时检测多类别除了数据按V3Det构造,其他方面应该如何修改呢?
你好,我现在也有类似任务需要训练,请问大佬问题有得到解决吗,方便分享一下不,感谢
@zzk88862 没有,这类多模态模型对这种任务本身支持效果就差,是模型结构和训练方式的原因,如果是高召回率的需求建议换种方式。