Open-GroundingDino
Open-GroundingDino copied to clipboard
ovdg数据caption问题
请问为什么在数据组织时,caption的类别使用label map中的所有类别拼接而不是使用单张图像标注的真实类别拼接。如下图所示,在单帧anno中,只有person和cyclist两种类型,两个bbox,但是caption确实6个类别的拼接
https://github.com/longzw1997/Open-GroundingDino/blob/main/datasets/odvg.py#L81