MiniCPM-o icon indicating copy to clipboard operation
MiniCPM-o copied to clipboard

object detection能力

Open hardlipay opened this issue 10 months ago • 1 comments

请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?

hardlipay avatar Apr 18 '24 02:04 hardlipay

你好,感谢建议,minicpm-v-2 在训练的时候 general grounding 的数据比较少,并且 sft 阶段也没有专门加入 grounding 数据来增强模型的定位能力,所以当前开源模型不太能支持输入指令让模型返回目标 bbox,我们会考虑在后续的迭代中加上这个能力。

YuzaChongyi avatar Apr 18 '24 09:04 YuzaChongyi

强烈需要啊,如果 MiniCPM 支持返回 bbox 就完美了

songofhawk avatar Jun 07 '24 15:06 songofhawk

请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?

现在哪些模型支持返回 bbox 了?

songofhawk avatar Jun 07 '24 15:06 songofhawk

请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?

现在哪些模型支持返回 bbox 了?

很多吧。 最早的工作应该是这个吧 https://github.com/shikras/shikra

hardlipay avatar Jun 11 '24 06:06 hardlipay

谢谢,我也找到 shikra 了,后来还试了 Qwen-VL,不过它们的 bbox 也不是很准,期待新的模型出现

On Tue, Jun 11, 2024 at 2:27 PM hardlipay @.***> wrote:

请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?

现在哪些模型支持返回 bbox 了?

很多吧。 最早的工作应该是这个吧 https://github.com/shikras/shikra

— Reply to this email directly, view it on GitHub https://github.com/OpenBMB/MiniCPM-V/issues/62#issuecomment-2159895764, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAV2PWHMBZTF4SRXJX733YTZG2KFNAVCNFSM6AAAAABGMLTQXGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDCNJZHA4TKNZWGQ . You are receiving this because you commented.Message ID: @.***>

songofhawk avatar Jun 15 '24 02:06 songofhawk