opencompass [Bug] RACE数据集在hf-llama-7b上的评测结果异常

[Bug] RACE数据集在hf-llama-7b上的评测结果异常

Open Li-jiaxian opened this issue 1 year ago • 0 comments

先决条件

[X] 我已经搜索过问题和讨论但未得到预期的帮助。
[X] 错误在最新版本中尚未被修复。

问题类型

我正在使用官方支持的任务/模型/数据集进行评估。

环境

参考opencompass docs配置

重现问题 - 代码/配置示例

同官方

重现问题 - 命令或脚本

python run.py
--models hf_llama_7b
--datasets race_ppl_5831a0
--work-dir ./outputs/debug/lm/race_ppl_5831a0
--num-gpus 1
--max-partition-size 1000
--max-num-workers 8

重现问题 - 错误信息

无

其他信息

在PIQA、SIQA、WinoGrande上的结果与Llama原论文的指标均能对齐。在race_ppl_5831a0上的RACE-middle和RACE-high分别为36.70和30.59，原文为61.1和46.9。

May 15 '24 13:05 Li-jiaxian

opencompass opencompass copied to clipboard

[Bug] RACE数据集在hf-llama-7b上的评测结果异常

先决条件

问题类型

环境

重现问题 - 代码/配置示例

重现问题 - 命令或脚本

重现问题 - 错误信息

其他信息

opencompass
opencompass copied to clipboard