MobileAgent
MobileAgent copied to clipboard
现在的MLLM真的有视觉Reflection能力吗
这个reflection能力我觉得有三点:
- 能意识到任务是否完成
- 能意识到需要做撤销/回退
- 如果是视觉设计的任务,还要能感知到设计出来的东西是否违反人类审美
这三点对于MLLM来说,一个比一个难,我们测试过PPT编辑类任务,对于复杂点的PPT编辑,几乎很少有正确的Reflection
对于简单的任务,我们测试是具备reflection能力的。但这需要有一个前提,就是MLLM对结果有正确的预期。具体来说,MLLM需要大概清楚一个操作完成后的状态,而这需要一定的先验知识。对于常用的APP,MLLM在训练阶段使用过部分页面,则在这种APP上的reflection能力就会比较强。相反,如果是冷门APP效果则不理想。
这方面预训练数据太少了
GUI-Critic-R1会不会在这方面有较好的先验?但好像没见到用GUI-Critic-R1的项目