InternVL 关于InternVL定位多类别时的问题

您好，我根据官方文档制作了V3Det格式的问答结构，正常训练、推理，对于一张图片只有一类目标时基本可以正常检测到，这一类不论一个或多个目标大部分可以检测出来，例如一个人、五个人都能检测出来。但是如果一张图出现多个类别时，就只能检测出一个类别，例如训练包含了人和车，一张图有两个人、两辆车，就只能检测出其中一个类别的所有目标。

训练较为充分，数据量也不少。

训练问答样例结构如下： {"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}

这个问题困扰了很久，我尝试了很多问答结构都没法解决多类别的检测，请问这是什么问题呢？

我考虑过下面几种情况： 1：训练代码只读取了第一个类别的box； 2：训练的损失函数； 3：模型的输出问题；

Feb 10 '25 08:02 daihuidai

Hi, 可以构造成多轮对话，每一次检测一个类别。

Feb 11 '25 04:02 lll2343

您好，对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景，我看官方提供的V3Det样例就是多类别同时检测，说明模型应该是支持的。请问如果要同时检测多类别除了数据按V3Det构造，其他方面应该如何修改呢？

Feb 11 '25 05:02 daihuidai

你好，我现在也有类似任务需要训练，请问大佬问题有得到解决吗，方便分享一下不，感谢

May 29 '25 10:05 zzk88862

@zzk88862 没有，这类多模态模型对这种任务本身支持效果就差，是模型结构和训练方式的原因，如果是高召回率的需求建议换种方式。

Jun 11 '25 03:06 daihuidai