VTC-CLS icon indicating copy to clipboard operation
VTC-CLS copied to clipboard

May I ask how to obtain the evaluation results in the thesis?

Open jay-bo opened this issue 8 months ago • 6 comments

Hello, author! As the title suggests, I ran the Evaluation script through docs/ScienceQA.md with llava-v1.5-7b and obtained the result as follows: Total: 4241, Correct: 2639, Accuracy: 62.23%, IMG-Accuracy: 61.18% How can the results in your thesis be obtained?Looking forward to your answer. Thank you very much! 作者你好!如题,我通过docs/ScienceQA.md运行Evaluation脚本,llava-v1.5-7b 得到结果为:Total: 4241, Correct: 2639, Accuracy: 62.23%, IMG-Accuracy: 61.18% 怎么能得到你论文中的结果呢?期待您的解答,万分感谢!

jay-bo avatar Apr 19 '25 07:04 jay-bo

谢谢您对本工作的关注!

论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。

你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

ChimpOnCloud avatar Apr 22 '25 13:04 ChimpOnCloud

作者您好!首先感谢您的回复!之前是简单的用docs/ScienceQA.md中的脚本修改后运行的,看到你的回复后,我刚刚按照bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64运行测试,设备型号是单张NVIDIA A6000,使用的模型的huggingface地址是liuhaotian/llava-v1.5-7b。 在运行sqa.sh时因为只使用了一张a6000,所以修改了脚本中的GPU_ID,其余无修改。 运行结果为:65.50341900495165(见图1) 随后我仔细看了项目md中提到的使用的模型的huggingface:https://huggingface.co/Zuyan/ElasticCache/tree/main/llava-v1.5-7b。 再次测试,结果为:Total: 4241, Correct: 2530, Accuracy: 59.66%, IMG-Accuracy: 65.39% (见图2) 所以想请问是不是我遗漏了什么..我不确定 再次感谢您的杰出工作以及耐心回复!

Image Image

jay-bo avatar Apr 22 '25 15:04 jay-bo

谢谢您对本工作的关注!

论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。

你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json, 具体命令如下: python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

jay-bo avatar Apr 23 '25 01:04 jay-bo

谢谢您对本工作的关注! 论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。 你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json, 具体命令如下: python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

抱歉,我们使用的模型的地址应该为liuhaotian/llava-v1.5-7b,已经在仓库中修正。您是否运行了其他数据集,得到的结果如何?

ChimpOnCloud avatar Apr 23 '25 05:04 ChimpOnCloud

谢谢您对本工作的关注! 论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。 你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json, 具体命令如下: python scripts/convert_sqa_to_llava.py convert_to_llava --base-dir /path/to/ScienceQA/data/scienceqa --prompt-format "QCM-LEA" --split {train,val,minival,test,minitest} 不知道这是否和您的处理一致。

您描述的情况我也不能确定哪里可能出现了问题。但是如果方便提供邮箱或其他联系方式,我可以将运行得到的结果json文件发送给您,以便让您进一步确认。

ChimpOnCloud avatar Apr 23 '25 06:04 ChimpOnCloud