shajiu
shajiu
支持CMMMU评测: 大概步骤为加载数据集、拼接并构建调用LLM的指令、最麻烦的就是各种对结果的归一化。当前当前只能对【dev 、val】这两个数据进行评估了,因为test文件未开源答案。具体数据地址分别为: 第一步:数据获取: dev: https://github.com/CMMMU-Benchmark/CMMMU/tree/main/cmmmu-data-dev val : https://github.com/CMMMU-Benchmark/CMMMU/tree/main/cmmmu-data-val 第二步:拼接指令预测结果 ``` PROMPT = { "task_instructions": [ "请回答以下多项选择题,并选出正确选项。这些题目可能包括单选和多选题型。如果所提供的信息不足以确定一个明确的答案,那么请根据可用的数据和你的判断来选择最可能正确的选项。", "请回答以下判断题,并根据题目描述和所给的信息来判断问题中陈述的对错。如果信息不完整或不足以作出绝对判断,请运用你的逻辑推理和现有信息来做出最可能的判断。", "请回答以下填空题,并根据题目的要求和所提供的信息来给出最恰当的答案。如果信息不足以确切回答,那么请依据现有的数据和你的推理能力来填写最合理的答案。", ], "multi_choice_example_format": ["问题:{}\n选项:\n{}\n正确答案:\n"], "T/F_example_format": ["问题:{}\n正确答案:\n"], "short_ans_example_format": ["问题:{}\n正确答案:\n"], } def construct_prompt(sample): question...
> hi,cmmmu官网上提到vlmevalkit已经支持了CMMMU,但支持的配置集中暂未列出改配置,请问下是什么情况呀 我已经在这里实现了哈,你可以参考这个。