InternVL
InternVL copied to clipboard
如果数据集的标签有bbox应该怎么适配(InternVL3)
InternVL是很nice的工作。我想请教一下,因为我看InternVL会动态处理输入图片,将其自适应resize成448的整数倍然后分patch。那如果我的标签内有bbox,也要同步到resize后的尺度吗(分patch应该不影响box的尺度?) 然后我看grounding任务说要把box缩放到[0,1000]。因为输入又会动态处理,究竟是把box缩放到[0,1000]就不用考虑动态输入,还是说先将box随图片校准至448整数倍的尺度,然后再resize到[0,1000】