CogVLM 关于模型视觉定位原理

关于模型视觉定位原理

Open ZhuChunquan opened this issue 1 year ago • 0 comments

如果想用Q&A形式数据集微调，采用视觉定位的第三种形式，也就是根据边界框坐标提供描述，那么训练时模型是如何从训练数据中提取坐标（[[ ]]）信息，并与相关描述结合处理的？相关原理的代码位置在哪？

May 12 '24 15:05 ZhuChunquan