MobileAgent icon indicating copy to clipboard operation
MobileAgent copied to clipboard

现在的MLLM真的有视觉Reflection能力吗

Open XianglongTan opened this issue 9 months ago • 3 comments

这个reflection能力我觉得有三点:

  1. 能意识到任务是否完成
  2. 能意识到需要做撤销/回退
  3. 如果是视觉设计的任务,还要能感知到设计出来的东西是否违反人类审美

这三点对于MLLM来说,一个比一个难,我们测试过PPT编辑类任务,对于复杂点的PPT编辑,几乎很少有正确的Reflection

XianglongTan avatar Mar 03 '25 09:03 XianglongTan

对于简单的任务,我们测试是具备reflection能力的。但这需要有一个前提,就是MLLM对结果有正确的预期。具体来说,MLLM需要大概清楚一个操作完成后的状态,而这需要一定的先验知识。对于常用的APP,MLLM在训练阶段使用过部分页面,则在这种APP上的reflection能力就会比较强。相反,如果是冷门APP效果则不理想。

junyangwang0410 avatar Mar 04 '25 02:03 junyangwang0410

这方面预训练数据太少了

XianglongTan avatar Mar 04 '25 06:03 XianglongTan

GUI-Critic-R1会不会在这方面有较好的先验?但好像没见到用GUI-Critic-R1的项目

a-rookie-create avatar Sep 09 '25 13:09 a-rookie-create