MiniCPM-o object detection能力

请问，支持detection返回bbox吗？很多多模态模型已经支持了，且性能也很优秀，为什么cpmv我测了感觉不支持。但是cpmv对空间位置关系的感知能力也很强，是什么原因导致放弃了训练这一功能呢？如果加上detect的预训练，做finetune时有bbox输入对应文本，是否能让模型更容易获取新知识？

Apr 18 '24 02:04 hardlipay

你好，感谢建议，minicpm-v-2 在训练的时候 general grounding 的数据比较少，并且 sft 阶段也没有专门加入 grounding 数据来增强模型的定位能力，所以当前开源模型不太能支持输入指令让模型返回目标 bbox，我们会考虑在后续的迭代中加上这个能力。

Apr 18 '24 09:04 YuzaChongyi

强烈需要啊，如果 MiniCPM 支持返回 bbox 就完美了

Jun 07 '24 15:06 songofhawk

请问，支持detection返回bbox吗？很多多模态模型已经支持了，且性能也很优秀，为什么cpmv我测了感觉不支持。但是cpmv对空间位置关系的感知能力也很强，是什么原因导致放弃了训练这一功能呢？如果加上detect的预训练，做finetune时有bbox输入对应文本，是否能让模型更容易获取新知识？

现在哪些模型支持返回 bbox 了？

Jun 07 '24 15:06 songofhawk

请问，支持detection返回bbox吗？很多多模态模型已经支持了，且性能也很优秀，为什么cpmv我测了感觉不支持。但是cpmv对空间位置关系的感知能力也很强，是什么原因导致放弃了训练这一功能呢？如果加上detect的预训练，做finetune时有bbox输入对应文本，是否能让模型更容易获取新知识？

现在哪些模型支持返回 bbox 了？

很多吧。最早的工作应该是这个吧 https://github.com/shikras/shikra

Jun 11 '24 06:06 hardlipay

谢谢，我也找到 shikra 了，后来还试了 Qwen-VL，不过它们的 bbox 也不是很准，期待新的模型出现

On Tue, Jun 11, 2024 at 2:27 PM hardlipay @.***> wrote:

请问，支持detection返回bbox吗？很多多模态模型已经支持了，且性能也很优秀，为什么cpmv我测了感觉不支持。但是cpmv对空间位置关系的感知能力也很强，是什么原因导致放弃了训练这一功能呢？如果加上detect的预训练，做finetune时有bbox输入对应文本，是否能让模型更容易获取新知识？

现在哪些模型支持返回 bbox 了？

很多吧。最早的工作应该是这个吧 https://github.com/shikras/shikra

— Reply to this email directly, view it on GitHub https://github.com/OpenBMB/MiniCPM-V/issues/62#issuecomment-2159895764, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAV2PWHMBZTF4SRXJX733YTZG2KFNAVCNFSM6AAAAABGMLTQXGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDCNJZHA4TKNZWGQ . You are receiving this because you commented.Message ID: @.***>

Jun 15 '24 02:06 songofhawk

MiniCPM-o MiniCPM-o copied to clipboard

object detection能力

MiniCPM-o
MiniCPM-o copied to clipboard