CogVLM
CogVLM copied to clipboard
我该使用什么格式的输入来用模型进行visual grounding 任务?
我没有找到一个能稳定使得模型输出[x1,y1,x2,y2]的bounding box的方法,请问当时evaluation的代码还有吗
使用的是cogvlm-grounding-generalist-v1.1的cli_demo,