MiniCPM-o
MiniCPM-o copied to clipboard
object detection能力
请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?
你好,感谢建议,minicpm-v-2 在训练的时候 general grounding 的数据比较少,并且 sft 阶段也没有专门加入 grounding 数据来增强模型的定位能力,所以当前开源模型不太能支持输入指令让模型返回目标 bbox,我们会考虑在后续的迭代中加上这个能力。
强烈需要啊,如果 MiniCPM 支持返回 bbox 就完美了
请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?
现在哪些模型支持返回 bbox 了?
请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?
现在哪些模型支持返回 bbox 了?
很多吧。 最早的工作应该是这个吧 https://github.com/shikras/shikra
谢谢,我也找到 shikra 了,后来还试了 Qwen-VL,不过它们的 bbox 也不是很准,期待新的模型出现
On Tue, Jun 11, 2024 at 2:27 PM hardlipay @.***> wrote:
请问,支持detection返回bbox吗?很多多模态模型已经支持了,且性能也很优秀,为什么cpmv我测了感觉不支持。 但是cpmv对空间位置关系的感知能力也很强,是什么原因导致放弃了训练这一功能呢? 如果加上detect的预训练,做finetune时有bbox输入对应文本,是否能让模型更容易获取新知识?
现在哪些模型支持返回 bbox 了?
很多吧。 最早的工作应该是这个吧 https://github.com/shikras/shikra
— Reply to this email directly, view it on GitHub https://github.com/OpenBMB/MiniCPM-V/issues/62#issuecomment-2159895764, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAV2PWHMBZTF4SRXJX733YTZG2KFNAVCNFSM6AAAAABGMLTQXGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDCNJZHA4TKNZWGQ . You are receiving this because you commented.Message ID: @.***>