VTC-CLS May I ask how to obtain the evaluation results in the thesis?

Hello, author! As the title suggests, I ran the Evaluation script through docs/ScienceQA.md with llava-v1.5-7b and obtained the result as follows: Total: 4241, Correct: 2639, Accuracy: 62.23%, IMG-Accuracy: 61.18% How can the results in your thesis be obtained?Looking forward to your answer. Thank you very much! 作者你好！如题，我通过docs/ScienceQA.md运行Evaluation脚本，llava-v1.5-7b 得到结果为：Total: 4241, Correct: 2639, Accuracy: 62.23%, IMG-Accuracy: 61.18% 怎么能得到你论文中的结果呢？期待您的解答，万分感谢！

Apr 19 '25 07:04 jay-bo

谢谢您对本工作的关注！

论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码，得到了如下的结果：运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64，也就是保留64个token的情况。得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy，也就是69.96，和论文中的70.0吻合。

你使用的设备型号是什么？另外，你使用的模型的huggingface地址是什么？另外，另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

Apr 22 '25 13:04 ChimpOnCloud

作者您好！首先感谢您的回复！之前是简单的用docs/ScienceQA.md中的脚本修改后运行的，看到你的回复后，我刚刚按照bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64运行测试，设备型号是单张NVIDIA A6000，使用的模型的huggingface地址是liuhaotian/llava-v1.5-7b。在运行sqa.sh时因为只使用了一张a6000,所以修改了脚本中的GPU_ID，其余无修改。运行结果为：65.50341900495165（见图1）随后我仔细看了项目md中提到的使用的模型的huggingface：https://huggingface.co/Zuyan/ElasticCache/tree/main/llava-v1.5-7b。再次测试，结果为：Total: 4241, Correct: 2530, Accuracy: 59.66%, IMG-Accuracy: 65.39% （见图2）所以想请问是不是我遗漏了什么..我不确定再次感谢您的杰出工作以及耐心回复！

Apr 22 '25 15:04 jay-bo

谢谢您对本工作的关注！

论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码，得到了如下的结果：运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64，也就是保留64个token的情况。得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy，也就是69.96，和论文中的70.0吻合。

你使用的设备型号是什么？另外，你使用的模型的huggingface地址是什么？另外，另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json，具体命令如下： python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

Apr 23 '25 01:04 jay-bo

谢谢您对本工作的关注！论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码，得到了如下的结果：运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64，也就是保留64个token的情况。得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy，也就是69.96，和论文中的70.0吻合。你使用的设备型号是什么？另外，你使用的模型的huggingface地址是什么？另外，另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json，具体命令如下： python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

抱歉，我们使用的模型的地址应该为liuhaotian/llava-v1.5-7b，已经在仓库中修正。您是否运行了其他数据集，得到的结果如何？

Apr 23 '25 05:04 ChimpOnCloud

谢谢您对本工作的关注！论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码，得到了如下的结果：运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64，也就是保留64个token的情况。得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy，也就是69.96，和论文中的70.0吻合。你使用的设备型号是什么？另外，你使用的模型的huggingface地址是什么？另外，另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json，具体命令如下： python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

您描述的情况我也不能确定哪里可能出现了问题。但是如果方便提供邮箱或其他联系方式，我可以将运行得到的结果json文件发送给您，以便让您进一步确认。

Apr 23 '25 06:04 ChimpOnCloud