叶加博
叶加博
> 主要想确认一下图片resize的逻辑使用这个函数实现的吗? from qwen_vl_utils import smart_resize 是的,但需要注意一下设置相对较高的MAX_PIXELS,避免screenshot被压缩。这个会比较影响主要是click在内的决策生成。
> > 你好,我把当时进行aitz评测的相关代码拆出来,贴在这条[gist](https://gist.github.com/LukeForeverYoung/274a073ca77c9dc46022cb8cc5382223)里,可以参考一下。 > > 您好,是否也可以release一下Android Control的评测脚本? https://gist.github.com/LukeForeverYoung/1f5d19495788de0d905c5ac6341153f5 android control的测评代码我贴在这里了
> 请问你们评测的时候历史是仅有历史动作吗?还是截图也会附上 只保留历史动作,先前的截图就丢弃了。带历史截图对推理效率影响比较大,图片太多也会导致每张图能给到的pixel上限更少,对UI理解以及click这类精细操作会有影响。
> > > > 你好,我把当时进行aitz评测的相关代码拆出来,贴在这条[gist](https://gist.github.com/LukeForeverYoung/274a073ca77c9dc46022cb8cc5382223)里,可以参考一下。 > > > > > > > > > 您好,是否也可以release一下Android Control的评测脚本? > > > > > > https://gist.github.com/LukeForeverYoung/1f5d19495788de0d905c5ac6341153f5 android control的测评代码我贴在这里了 > > 十分感谢您的回复!其中有一个关键的逻辑想和您确认一下,我看到样例数据中只给了一个candidate bbox,candidate bbox是如何获取的呢?...