Junyang Wang

Results 130 comments of Junyang Wang

> 有没有其他解决方案如果依赖视觉的话,感觉处理起来速度很难提升,能不能以指令形式打开,让大模型根据提示词解析指令,使用agent来执行指令,在移动端如果我换个手机主题,他就可能识别不到了,并且我在实验时,就是把主题更改了,或者这个项目只是agent在移动端的一种实现方案的案例,而且我对这个项目很感兴趣,也在做这方面探索,相信如果成功了,可能是一次交互革命,让传统的点击事件响应以提示触发或者是用户的言语,在用户和app之间增加了一个调度或者是执行者,也可能他就叫agent,让用户交互更加‘’无感知‘’,反馈更加智能化,如果能够把这个调度执行在app域内,软件的形式也可能会被更改,或者传统软件的形式并不能满足这种需求,很期待这个项目的下一次更新。 感谢你对我们工作的关注,你的建议对我们非常重要,我们会认真讨论可行性

https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-E/MobileAgentE/api.py#L100 修改这里的调用方式即可,messages的格式应该是通用的

您好,DeepSeek系列模型目前尚未满足MobileAgent对UI感知的能力需求,我们将会持续关注并尝试通过视觉感知增强的方式适配DeepSeek!

Thanks for the feedback. We are also experiencing the same issue. This may be caused by the update that Modelscope made today. We are contacting Modelscope to try to resolve...

可以提供一下tensorflow的版本吗?

可以替换,但是要考虑到被替换的模型是否足以作为Agent,建议选择闭源的、规模较大的模型。

> > 可以替换,但是要考虑到被替换的模型是否足以作为Agent,建议选择闭源的、规模较大的模型。 > > 我目前想换Qwen-VL-Chat,如果替换的话,关于gpt-4o的API接口相关的参数都有哪些详细的解释吗?具体的数据格式有什么特别的要求? Qwen-VL目前支持兼容OpenAI的格式,可以参考通义千问的API文档:https://help.aliyun.com/zh/dashscope/developer-reference/tongyi-qianwen-vl-plus-api#6194b12252urk

> @junyangwang0410 这里 qwen-vl模型 Load caption model 与 gpt4-o两个模型的分别左右?这里qwen-vl用的本地模型、 gpt4-o用的api调用是吗 Qwen-VL也可以用API方式,4o只能用API方式

> > > @junyangwang0410 这里 qwen-vl模型 Load caption model 与 gpt4-o两个模型的分别左右?这里qwen-vl用的本地模型、 gpt4-o用的api调用是吗 > > > > > > Qwen-VL也可以用API方式,4o只能用API方式 > > 两者分别的作用是? qwen-vl用于细粒度感知图标,4o用于决策