sunfengyuan

Results 5 comments of sunfengyuan

谢谢您对本工作的关注! 论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。 你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。

> > 谢谢您对本工作的关注! > > 论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。 > > 你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。 > > 我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json, 具体命令如下:...

> > 谢谢您对本工作的关注! > > 论文中的结果是在一张NVIDIA 3090 RTX上按照repo里的运行得到的。我刚刚重新运行了一下代码,得到了如下的结果: 运行bash scripts/v1_5/eval/VTC-CLS/sqa.sh 20 64,也就是保留64个token的情况。 得到的结果为Total: 4241, Correct: 2967, Accuracy: 69.96%, IMG-Accuracy: 69.11% 记录的数据为Accuracy,也就是69.96,和论文中的70.0吻合。 > > 你使用的设备型号是什么?另外,你使用的模型的huggingface地址是什么? 另外,另一篇同期非常相似的工作https://arxiv.org/pdf/2412.01818 也在表格中得到了和我们的实验结果相近的数据。 > > 我使用docs/ScienceQA.md中的脚本得到llava_test_QCM-LEA.json, 具体命令如下:...

lol you mean fig.2? Currently we just picked random samples and tracked attention maps to get these data. You can simply get attention distribution in `llava_llama.py` and get [CLS] attention...

For fig.4, currently we just filtered those patches with top [CLS] attention scores, and manually marked each object with different color for paper readers to see the effectiveness of pruning...