SeeClick
SeeClick copied to clipboard
aitw数据集在Qwen VL上的评测结果
作者你好,
非常感谢您的工作和数据集,想咨询一下你们在评估QwenVL在sequential Action task的上的表现时是如何构造模型推理时的prompt/instruction呢,感觉直接通过aitw_test.py的代码测试QwenVL,会出现输出格式和action space的定义的格式不同,无法正常评估模型的性能。请问您们在评测时有限制输出格式相关的prompt吗?
下图为本地推理时,qwenVL的输入与输出: