Fei Ma
Fei Ma
的确现在这种方法用不了了,文泉书局太拉了,pdf导出也不支持,强迫用户用那烂阅读器:》 @niutu1224
@Happyroots > The extraction code is : **mipc** I found it under this link : https://github.com/QuJX/AIS-Visual-Fusion
> 我理解逆变化流程是 `x1 = x1 / 1000 * w` 而不是 `x1 = x1 / w * 1000` 应该是我之前的理解有误,现在修改了逆变换流程,重新运行了任务,结果似乎得到了改善,但是仍然存在结果框偏移问题。 最新的模型输出: ```json [ {"bbox_2d": [420, 390, 615, 640], "label": "car"}, {"bbox_2d": [692,...
> 建议用我们训练时候的prompt试一下`Please provide the bounding box coordinate of the region this sentence describes: {}`,具体可以参考这个[脚本](https://github.com/OpenGVLab/InternVL/blob/main/internvl_chat/eval/refcoco/evaluate_grounding.py#L261)。当前多模态模型同时输出多个bbox做detection的能力确实不太行,可以试试每次只出一个bbox 好的,感谢你的答复,我再去试试:》
> [@FeiMa-REC](https://github.com/FeiMa-REC) 请问一下,问题是否修复了 目前测试看来一次直接输出多个目标的2d grounding,只有Seed1.6VL表现最好,如果是一次只输出单个bbox,InternVL3.5也够用。
> > > [@FeiMa-REC](https://github.com/FeiMa-REC) 请问一下,问题是否修复了 > > > > > > 目前测试看来一次直接输出多个目标的2d grounding,只有Seed1.6VL表现最好,如果是一次只输出单个bbox,InternVL3.5也够用。 > > 多谢。请问这个是在自定义数据集上微调得到的结论吗? 是的