Junyang Wang
Junyang Wang
感谢建议,我们目前已经放弃了······
> 我对mobile-agent-v的使用有疑问,我在真实场景中使用,比如执行一个点外卖指令。我哪里来的完整的点外卖视频,这不是包含未来信息吗。即使可以从网上找到其他点外卖的视频,但是如果是不同app呢?我在美团点外卖,但是网上视频是饿了么?用饿了么作为guidance来指挥agent点美团外卖可行吗 你好。Mobile-Agent-V的出发点是便捷的知识学习。例如点外卖的指令agent因为缺乏操作知识无法完成,此时用户可以通过录屏来录制自己的操作,然后将录制的视频输入Mobile-Agent-V,它可以根据视频的操作学习知识并在后续的操作中独立完成指令。这个过程可以省去人工调整指令和额外输入的操作知识。
这个问题可能是由于ADB连接手机端存在问题,导致截图无法被读取。请检查ADB连接状态和手机的USB连接设置: ```path/to/adb.exe devices``` 手机USB连接设置选择“**传输文件**”
> 已经解决了,主干模型可以用国内的大模型吗?可以推荐一下吗 Qwen-vl2-max
可以使用Qwen-VL-2.5系列开源大模型
可以的,改一下API调用方式即可
对于简单的任务,我们测试是具备reflection能力的。但这需要有一个前提,就是MLLM对结果有正确的预期。具体来说,MLLM需要大概清楚一个操作完成后的状态,而这需要一定的先验知识。对于常用的APP,MLLM在训练阶段使用过部分页面,则在这种APP上的reflection能力就会比较强。相反,如果是冷门APP效果则不理想。
这可能是由于模型的一些训练偏差导致不正确操作倾向,建议将APP放到页面能看到的位置,避免来回寻找
是的,目前Qwen2-VL系列模型已经可以本地部署并应用于Mobile-Agent系列中,只需要修改对应Agent调用模型的代码即可
If you use the API call method, the memory overhead can be almost ignored. If you use the local method, GPU memory >= 12GB is required.