Junyang Wang
Junyang Wang
可以将ADB命令从远程服务器发回本地设备,再利用本地设备的ADB控制手机
你好,如果GroundingDINO的运行速度很慢,可能是使用了CPU,可以尝试使用带有GPU的机器运行
慢的原因主要有两个: 1. gpt-4o本身推理速度就比较慢,加上网络通讯还会产生额外的延时 2. 调用qwen-vl会有限速,目前限速应该是每分钟15-30次,超速需要等待 解决方案可以将部分模块设计为并行,例如planning和上一阶段的reflection是可以并行的,如果反思结果正确,则可以省去一次调用,如果错误,则回退操作并重新执行planning即可,不会产生额外的延时。 同时,ocr和sam也是可以并行的,并且可以放到GPU上加速。不过,想要速度真正达到可用,还需要解决基模型推理的速度,这将是下一步我们v3工作的重点。
> 好想法,我最近也在做类似的项目。要提升速度瓶颈始终在模型上,如果模型性能够用的话甚至可以省略反思记忆等流程,直接输出action,这样就能大幅提升速度。 是的,我们也提供了反思和记忆的开关,如果任务难度不高,可以尝试关闭。
> 运行run.py卡住了,截图如下: > >  你好,尝试关闭VPN试一下
> 用了Android Studio,有报错:[1] 71772 illegal hardware instruction python Mobile-Agent-v2/run.py > > > 我电脑是Mac M3 尝试: ``` cd Mobile-Agent-v2 python run.py ```
你可以在add_info中加入这样的描述:你需要勾选复选框,为了完成这个操作,你需要点击与“立即注册”同纵坐标、与“《用户服务协议》”同横坐标的位置 这个框因为特征不明显,不容易被检测出或者形象地描述出来,因此属于比较无解的case,不过可以尝试通过“参照物”的方法来解决,即找到容易被定位的位置,然后通过关联性让模型推理出需要点击的位置的坐标
Hello. Thank you for your attention. The AndroidWorld benchmark code is now open source at [[Link]](https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3/android_world_v3). We've incorporated some context-sensitive prompts from AndroidWorld into Mobile-Agent-v3, but not all. Otherwise, Mobile-Agent-v3...
您好,方便提供更详细的报错信息吗?包括错误堆栈和原始的错误输出
User location is not supported for the API use. 推测应该是GPT-4o暂时不支持从中国IP调用,可以尝试挂🪜