opencompass
opencompass copied to clipboard
[Bug] RACE数据集在hf-llama-7b上的评测结果异常
先决条件
问题类型
我正在使用官方支持的任务/模型/数据集进行评估。
环境
参考opencompass docs配置
重现问题 - 代码/配置示例
同官方
重现问题 - 命令或脚本
python run.py
--models hf_llama_7b
--datasets race_ppl_5831a0
--work-dir ./outputs/debug/lm/race_ppl_5831a0
--num-gpus 1
--max-partition-size 1000
--max-num-workers 8
重现问题 - 错误信息
无
其他信息
在PIQA、SIQA、WinoGrande上的结果与Llama原论文的指标均能对齐。 在race_ppl_5831a0上的RACE-middle和RACE-high分别为36.70和30.59,原文为61.1和46.9。