点击输入框后键盘未激活(ADB键盘)但模型使用了type操作
在instruction进行了强调要求输入前检查键盘激活状态但没有作用。
Hello, would you mind sharing the instruction or prompt?
Hello, would you mind sharing the instruction or prompt?
使用官方提供的用于Mobile的system prompt,下列日志对应的任务执行过程中Agent在第一次type操作之前没有检查键盘(ADB Keyboard)激活状态从而导致输入失败。 我尝试在system prompt中'Note'部分或者instruction中加入强调要求输入前检查键盘是否激活,但似乎没有起作用。
任务:打开韩小圈app,搜索电视剧《魔女》 Thought: 我在手机主屏幕上找到了韩小圈的图标,它在屏幕左下方,是个粉色底色配上白色文字的图标。为了开始搜索《魔女》这部剧,我需要先点击这个图标来启动应用。 Action: click(start_box='(195,1490)') Thought: 看到韩小圈的主界面了,顶部有个搜索框,正好可以用来找《魔女》。我得先点击一下搜索框,让它变成可输入状态,这样就能开始搜索了。 Action: click(start_box='(635,340)') Thought: 搜索框已经准备就绪了,我看到光标在闪烁,现在只需要输入"魔女"两个字就能找到这部剧了。搜索框就在眼前,我马上开始输入关键词。 Action: type(content='魔女') Thought: 看来搜索框已经准备好了,我注意到它正闪烁着光标,等待我的输入。既然要找《魔女》这部剧,那就直接在这里输入关键词吧。搜索框就在眼前,我马上开始输入。 Action: type(content='魔女') Thought: 我注意到搜索框里已经输入了"魔女",但似乎没有触发搜索功能。看来是需要我再点一下搜索框,让系统知道我要开始搜索了。毕竟搜索功能需要明确的触发信号才能正常工作。 Action: click(start_box='(372,216)') Thought: 我看到搜索框里已经输入了"魔女",但搜索结果并没有显示出来。让我再试一次 - 在搜索框中输入"魔女",这样应该就能找到这部剧了。毕竟搜索功能需要明确的输入才能正常工作。 Action: type(content='魔女') Thought: 好了,搜索框里已经输入了"魔女",现在就差最后一步了。我看到搜索框右边有个醒目的粉色"搜索"按钮,点击它就能开始查找这部剧了。让我们赶紧完成这个搜索操作吧。 Action: click(start_box='(1139,216)') Thought: 搜索结果出来了,我看到页面上显示了三部与"魔女"相关的影视作品。其中最引人注目的是排在第一位的2025年韩剧《魔女》,评分8.1分,主演包括朴珍荣、卢正义等。这应该就是我要找的那部剧了,让我点击它的封面图,看看详细信息。 Action: click(start_box='(210,691)') Thought: 太好了!经过一系列搜索操作,我终于找到了这部《魔女》。从评分8.1分来看,这部剧应该挺受欢迎的。现在我已经成功进入到了剧集详情页面,可以看到完整的剧集信息、演员表,以及评分和选集功能。看来这次的搜索任务已经圆满完成了。 Action: finished(content='已为你打开韩小圈app并搜索电视剧《魔女》,任务完成。')
你好, 请问用的是哪一版模型呀,可以发下huggingface链接;推荐使用72b的模型,instruction following能力更好一些
你好, 请问用的是哪一版模型呀,可以发下huggingface链接;推荐使用72b的模型,instruction following能力更好一些
我这边使用的是最近开源的UI-Tars-1.5-7B模型
目前开源版本的7b模型instruction following能力比较差,另外检查键盘激活状态这个操作是一个新增的action吗,如果是新定义的action,无论是7b还是72b模型都很难去看着prompt学会使用
目前开源版本的7b模型instruction following能力比较差,另外检查键盘激活状态这个操作是一个新增的action吗,如果是新定义的action,无论是7b还是72b模型都很难去看着prompt学会使用
不是新增action,是任务执行过程中出现了这个问题,所以想在prompt中加强调要求模型输入前检查键盘激活状态,但是目前没有起作用。
我理解这里的检查其实没有具体指怎么检查,希望模型自发地通过某些方式去做是吗; 如果是这样的话可能模型能力还不足够,或者可以在instruction里把如何检查说得具体一些
我理解这里的检查其实没有具体指怎么检查,希望模型自发地通过某些方式去做是吗; 如果是这样的话可能模型能力还不足够,或者可以在instruction里把如何检查说得具体一些
我是在user_instruction末尾加上一条要求,要求模型在输入前检查输入法键盘激活状态。具体的方式比如我用ADB键盘的话,就是检查屏幕底部是否出现"ADB Keyboard{ON}"文本。
我理解这里的检查其实没有具体指怎么检查,希望模型自发地通过某些方式去做是吗; 如果是这样的话可能模型能力还不足够,或者可以在instruction里把如何检查说得具体一些
我是在user_instruction末尾加上一条要求,要求模型在输入前检查输入法键盘激活状态。具体的方式比如我用ADB键盘的话,就是检查屏幕底部是否出现"ADB Keyboard{ON}"文本。
那你得需要像阿里的MobileAgent里面用 OCR groundingDINO 这种先检测当前页面文本和图标吧,有了检测在都输入给模型 让模型判断当前的输入里面有没有ADB Keyboard{ON}文本
我理解这里的检查其实没有具体指怎么检查,希望模型自发地通过某些方式去做是吗; 如果是这样的话可能模型能力还不足够,或者可以在instruction里把如何检查说得具体一些
我是在user_instruction末尾加上一条要求,要求模型在输入前检查输入法键盘激活状态。具体的方式比如我用ADB键盘的话,就是检查屏幕底部是否出现"ADB Keyboard{ON}"文本。
现在有好的解决方法了吗
请问你是如何实现操作手机的?我看代码里好像没有adb