MobileAgent
MobileAgent copied to clipboard
能否将gpt4-v改成国内的免费开源大模型
国内的大模型对中文的支持比较好,是否计划接入别的大模型?
国内的大模型对中文的支持比较好,是否计划接入别的大模型?
感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。
Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.
我们提供了一个免费的API来调用Mobile Agent。请查看最新的README.md的Quick Start部分。
We provide a free API to try Mobile Agent. Please check the Quick Start section of the latest README.md.
支持其它模型有具体时间表吗?免费的api调用了一次就提示超出限制了(Exceeded the quota for today, please try again tomorrow)
国内的大模型对中文的支持比较好,是否计划接入别的大模型?
感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。
Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.
请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗? 目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答
国内的大模型对中文的支持比较好,是否计划接入别的大模型?
感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。 Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.
请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗? 目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答
最终方案预期是端到端的,也就是Agent可以直接产生坐标。目前基于GPT-4V版本的性能限制主要是你所提到的由语言空间转换为操作空间的gap,我们同时也会开发新的版本来针对这个问题来提升转换的效率。