CogVLM icon indicating copy to clipboard operation
CogVLM copied to clipboard

关于模型视觉定位原理

Open zcqzcqzcq88 opened this issue 9 months ago • 0 comments

如果想用Q&A形式数据集微调,采用视觉定位的第三种形式,也就是根据边界框坐标提供描述,那么训练时模型是如何从训练数据中提取坐标([[ ]])信息,并与相关描述结合处理的?相关原理的代码位置在哪?

zcqzcqzcq88 avatar May 12 '24 15:05 zcqzcqzcq88