nuyoah

Results 2 issues of nuyoah

如果想用Q&A形式数据集微调,采用视觉定位的第三种形式,也就是根据边界框坐标提供描述,那么训练时模型是如何从训练数据中提取坐标([[ ]])信息,并与相关描述结合处理的?相关原理的代码位置在哪?

grounding-generalist支持批量推理吗