nuyoah issues

Results 2 issues of


                                            nuyoah

如果想用Q&A形式数据集微调，采用视觉定位的第三种形式，也就是根据边界框坐标提供描述，那么训练时模型是如何从训练数据中提取坐标（[[ ]]）信息，并与相关描述结合处理的？相关原理的代码位置在哪？

grounding-generalist支持批量推理吗