Junyang Wang

Beijing Jiaotong University Beijing, China Studying at Beijing Jiaotong University Research intern at Tongyi AI Lab of Alibaba Group

Results 123 comments of


                                            Junyang Wang

【建议】TensorFlow兼容性太差建议放弃，发现很多人的cuda都无法使用tensorflow-2.9

感谢建议，我们目前已经放弃了······

mobileagent-v这篇文章有疑问

> 我对mobile-agent-v的使用有疑问，我在真实场景中使用，比如执行一个点外卖指令。我哪里来的完整的点外卖视频，这不是包含未来信息吗。即使可以从网上找到其他点外卖的视频，但是如果是不同app呢？我在美团点外卖，但是网上视频是饿了么？用饿了么作为guidance来指挥agent点美团外卖可行吗你好。Mobile-Agent-V的出发点是便捷的知识学习。例如点外卖的指令agent因为缺乏操作知识无法完成，此时用户可以通过录屏来录制自己的操作，然后将录制的视频输入Mobile-Agent-V，它可以根据视频的操作学习知识并在后续的操作中独立完成指令。这个过程可以省去人工调整指令和额外输入的操作知识。

通过api调用大模型，怎么还要下载大模型

这个问题可能是由于ADB连接手机端存在问题，导致截图无法被读取。请检查ADB连接状态和手机的USB连接设置： ```path/to/adb.exe devices``` 手机USB连接设置选择“**传输文件**”

通过api调用大模型，怎么还要下载大模型

> 已经解决了，主干模型可以用国内的大模型吗？可以推荐一下吗 Qwen-vl2-max

PC-agent可以使用开源的模型吗？

可以使用Qwen-VL-2.5系列开源大模型

请问Azure的key能直接用到这个项目里吗

可以的，改一下API调用方式即可

现在的MLLM真的有视觉Reflection能力吗

对于简单的任务，我们测试是具备reflection能力的。但这需要有一个前提，就是MLLM对结果有正确的预期。具体来说，MLLM需要大概清楚一个操作完成后的状态，而这需要一定的先验知识。对于常用的APP，MLLM在训练阶段使用过部分页面，则在这种APP上的reflection能力就会比较强。相反，如果是冷门APP效果则不理想。

启动时找不到app会一直上下滑动，这个怎么解决

这可能是由于模型的一些训练偏差导致不正确操作倾向，建议将APP放到页面能看到的位置，避免来回寻找

是否支持Qwen2-VL本地模型？

是的，目前Qwen2-VL系列模型已经可以本地部署并应用于Mobile-Agent系列中，只需要修改对应Agent调用模型的代码即可

Resource Consumption

If you use the API call method, the memory overhead can be almost ignored. If you use the local method, GPU memory >= 12GB is required.

‹
1
2
3
4
5
6
7
8
9
10
11
12
13
›