fredajiang
fredajiang
您好! 在执行learn.py的脚本中,使用第2种方式进行人工指导的方式学习,在执行adb命令的时候报错,相关报错的截图如下,看起来执行adb的截图操作是成功的,但是在执行adb拉取xml的过程中报错,请问需要调整和修改? 我对这个项目挺感兴趣的:)
How to improve the execution speed of OCR, grounding-dino, and chatgpt-4o models to transition mobile-agent from laboratory research to engineering use? 1. I replaced the original grounding-dino model with a...
在使用mobile-agent进行手机操作的过程中,目前的流程是用户给出指令后,mobile-agent根据用户指令完成用户的操作。但是在实际的场景中,操作手机完成指令时仍需要人类协助来帮助正确的完成。想咨询一下,在mobile-agent项目中有没有什么思路来解决这个问题? 场景:当我需要打车时,我给出了原始的出发地和目的地,mobile-agent根据指令帮我叫车。当存在多个相似的目的地,例如我的目的地是深圳莲花山公园(这时候会有多个候选项:深圳莲花山公园南门,深圳莲花山公园北门,深圳莲花山公园东停车场,深圳莲花山公园西停车场等等),这个时候需要人类来协助选择具体的目的地是哪个,而大语言模型选择的那个可能不是用户最后想要的。这种场景的案例挺多的。在这样的场景中,其实需要人类再次协助来帮助正确的完成。 我们尝试引入微软autogen这样的开源框架来重写mobile-agent,使之成为一个一个独立的agent来完成任务(微软autogen框架中有人机对话之类的agent),但是在引入autogen框架重写的过程中又会引入该框架其他的问题(各个agent之间的消息通信及状态控制没有能很好的管理等等)。 这个问题困扰了我很长一段时间,想咨询一下有没有什么好的解决办法或者思路?