GroundingDINO icon indicating copy to clipboard operation
GroundingDINO copied to clipboard

multi label inference problem

Open JeremyLin886 opened this issue 2 years ago • 1 comments

我在做自动驾驶场景下的目标检测任务,在使用多标签拼成的prompt时,遇到了两个问题:

  1. 随着text prompt长度的增加,检测性能会有所下降。例如当text prompt = "signal triangle"的时候,可以识别出图中的三角警示牌,但是当我尝试多类别的推理时,例如text prompt = "signal triangle . horizontal tyre . animal . cardboard box . stone .",原来可以识别的三角警示牌,就识别不出来了。我还不太清楚这是什么原因。
  2. 当我尝试用一个formula prompt(我不太确定是否是这个叫法)尝试检测一个较难描述的物体时,例如黄蓝色条纹锥桶:text prompt = “Yellow and blue striped cone bucket”,会检出“cone bucket”、“yellow cone bucket”等这样的物体,但这不是我想要的结果,我只想要“Yellow and blue striped cone bucket”,这个有办法实现吗?

JeremyLin886 avatar Dec 12 '23 02:12 JeremyLin886

hey, i am faced with the same issue. how did u handle it? 我也是这个问题,您解决了么

1benwu1 avatar Aug 05 '24 17:08 1benwu1