InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

如果数据集的标签有bbox应该怎么适配(InternVL3)

Open b762927 opened this issue 8 months ago • 0 comments

InternVL是很nice的工作。我想请教一下,因为我看InternVL会动态处理输入图片,将其自适应resize成448的整数倍然后分patch。那如果我的标签内有bbox,也要同步到resize后的尺度吗(分patch应该不影响box的尺度?) 然后我看grounding任务说要把box缩放到[0,1000]。因为输入又会动态处理,究竟是把box缩放到[0,1000]就不用考虑动态输入,还是说先将box随图片校准至448整数倍的尺度,然后再resize到[0,1000】

b762927 avatar Apr 23 '25 03:04 b762927