MobileAgent Necessity of GDINO?

trafficstars

Interesting Work!

Feb 01 '24 08:02 sxu1997

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

Feb 01 '24 08:02 sxu1997

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

我们尝试过让GPT-4V根据icon描述给出对应的坐标，但是发现GPT-4V不具备这个能力，换句话说，GPT-4V只具备感知能力，不具备定位能力。希望能帮助到你。

Feb 01 '24 08:02 junyangwang0410

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

我们尝试过让GPT-4V根据icon描述给出对应的坐标，但是发现GPT-4V不具备这个能力，换句话说，GPT-4V只具备感知能力，不具备定位能力。希望能帮助到你。

We have tried to let GPT-4V give the corresponding coordinates based on the icon description, but we found that GPT-4V does not have this ability, in other words, GPT-4V only has the ability to perceive, not the ability to localize. Hope it can help you.

Feb 01 '24 08:02 junyangwang0410

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

我们尝试过让GPT-4V根据icon描述给出对应的坐标，但是发现GPT-4V不具备这个能力，换句话说，GPT-4V只具备感知能力，不具备定位能力。希望能帮助到你。

Thanks for reply. 未来有针对这个问题的更新计划吗（定位不使用单独的模块，而是整个模型端到端）？

Feb 01 '24 09:02 sxu1997

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

我们尝试过让GPT-4V根据icon描述给出对应的坐标，但是发现GPT-4V不具备这个能力，换句话说，GPT-4V只具备感知能力，不具备定位能力。希望能帮助到你。

Thanks for reply. 未来有针对这个问题的更新计划吗（定位不使用单独的模块，而是整个模型端到端）？

可以参考这个回复

Feb 01 '24 09:02 junyangwang0410

请教一下～尽管论文中解释了GPT4V缺乏定位能力，但是给定icon的描述，GPT4V不具备给出坐标的能力吗？GDINO的存在是必要的吗？

gtp-4v的 grouding能力并不好，这才是为什么这个项目要自己训练模型的原因，大部分做grouding任务的模型都是自己训练的

Feb 04 '24 08:02 Ymars1990

MobileAgent MobileAgent copied to clipboard

Necessity of GDINO?

MobileAgent
MobileAgent copied to clipboard