MobileAgent 现在的MLLM真的有视觉Reflection能力吗

现在的MLLM真的有视觉Reflection能力吗

Open XianglongTan opened this issue 9 months ago • 3 comments

这个reflection能力我觉得有三点：

能意识到任务是否完成
能意识到需要做撤销/回退
如果是视觉设计的任务，还要能感知到设计出来的东西是否违反人类审美

这三点对于MLLM来说，一个比一个难，我们测试过PPT编辑类任务，对于复杂点的PPT编辑，几乎很少有正确的Reflection

Mar 03 '25 09:03 XianglongTan

对于简单的任务，我们测试是具备reflection能力的。但这需要有一个前提，就是MLLM对结果有正确的预期。具体来说，MLLM需要大概清楚一个操作完成后的状态，而这需要一定的先验知识。对于常用的APP，MLLM在训练阶段使用过部分页面，则在这种APP上的reflection能力就会比较强。相反，如果是冷门APP效果则不理想。

Mar 04 '25 02:03 junyangwang0410

这方面预训练数据太少了

Mar 04 '25 06:03 XianglongTan

GUI-Critic-R1会不会在这方面有较好的先验？但好像没见到用GUI-Critic-R1的项目

Sep 09 '25 13:09 a-rookie-create

MobileAgent MobileAgent copied to clipboard

现在的MLLM真的有视觉Reflection能力吗

MobileAgent
MobileAgent copied to clipboard