GroundingDINO
GroundingDINO copied to clipboard
multi label inference problem
我在做自动驾驶场景下的目标检测任务,在使用多标签拼成的prompt时,遇到了两个问题:
- 随着text prompt长度的增加,检测性能会有所下降。例如当text prompt = "signal triangle"的时候,可以识别出图中的三角警示牌,但是当我尝试多类别的推理时,例如text prompt = "signal triangle . horizontal tyre . animal . cardboard box . stone .",原来可以识别的三角警示牌,就识别不出来了。我还不太清楚这是什么原因。
- 当我尝试用一个formula prompt(我不太确定是否是这个叫法)尝试检测一个较难描述的物体时,例如黄蓝色条纹锥桶:text prompt = “Yellow and blue striped cone bucket”,会检出“cone bucket”、“yellow cone bucket”等这样的物体,但这不是我想要的结果,我只想要“Yellow and blue striped cone bucket”,这个有办法实现吗?
hey, i am faced with the same issue. how did u handle it? 我也是这个问题,您解决了么