SeeClick aitw数据集在Qwen VL上的评测结果

aitw数据集在Qwen VL上的评测结果

Open jiennyteng opened this issue 5 months ago • 12 comments

作者你好，非常感谢您的工作和数据集，想咨询一下你们在评估QwenVL在sequential Action task的上的表现时是如何构造模型推理时的prompt/instruction呢，感觉直接通过aitw_test.py的代码测试QwenVL，会出现输出格式和action space的定义的格式不同，无法正常评估模型的性能。请问您们在评测时有限制输出格式相关的prompt吗？下图为本地推理时，qwenVL的输入与输出：

Sep 12 '24 12:09 jiennyteng

SeeClick SeeClick copied to clipboard

aitw数据集在Qwen VL上的评测结果

SeeClick
SeeClick copied to clipboard