VLMEvalKit
VLMEvalKit copied to clipboard
ChartQA 评测中存在误判问题
问题描述
在对 ChartQA 进行评测时,我发现评测框架在部分情况下会因为数值格式差异而出现误判。
示例
问题:
What's the percentage of U.S adults who refused?
图表:
模型回答:
2%
标准答案:
2
评测结果:
False
说明
该示例中,模型输出的 “2%” 与标准答案 “2” 实际上语义一致,均表示 2%。此类情况应视为正确答案。
如果这是我个人评测配置的问题,也请官方团队指正,非常感谢!