CogVLM
CogVLM copied to clipboard
关于模型视觉定位原理
如果想用Q&A形式数据集微调,采用视觉定位的第三种形式,也就是根据边界框坐标提供描述,那么训练时模型是如何从训练数据中提取坐标([[ ]])信息,并与相关描述结合处理的?相关原理的代码位置在哪?