opencompass icon indicating copy to clipboard operation
opencompass copied to clipboard

[Bug] RACE数据集在hf-llama-7b上的评测结果异常

Open Li-jiaxian opened this issue 9 months ago • 0 comments

先决条件

  • [X] 我已经搜索过 问题讨论 但未得到预期的帮助。
  • [X] 错误在 最新版本 中尚未被修复。

问题类型

我正在使用官方支持的任务/模型/数据集进行评估。

环境

参考opencompass docs配置

重现问题 - 代码/配置示例

同官方

重现问题 - 命令或脚本

python run.py
--models hf_llama_7b
--datasets race_ppl_5831a0
--work-dir ./outputs/debug/lm/race_ppl_5831a0
--num-gpus 1
--max-partition-size 1000
--max-num-workers 8

重现问题 - 错误信息

其他信息

在PIQA、SIQA、WinoGrande上的结果与Llama原论文的指标均能对齐。 在race_ppl_5831a0上的RACE-middle和RACE-high分别为36.70和30.59,原文为61.1和46.9。

Li-jiaxian avatar May 15 '24 13:05 Li-jiaxian