AppAgent
AppAgent copied to clipboard
自己试了下,效果不太好啊
appAgent的效果极大程度上依赖于LLM返回的结果准确度,我用了gpt4-vision-preview的,给他一个输入手机号的界面,这个时候预期的结果应该是点击(tap)输入手机号的输入框,而不是直接text手机号码,我测试了gpt4v,qwen2max,glm4v9b还有豆包,都返回的是text手机号码,总感觉差一点点。
难道说其实现在LLM对于agent的能力还是不够好,或者说得单独训练这反面的能力吗,如果是的话该如何设置数据集呢?就像代码中的promote这样设计吗,输入是一大段,输出是四段式?
确实一般,可能appagentV2会好一点吧
确实一般,可能appagentV2会好一点吧
兄弟你试的感觉怎么样,用gpt4o感觉如何?
有工程bug,执行时间略慢。期待V2版本