opencompass [Feature] 纯吐槽，Bug太多了，更新不及时！

纯发一个issue吐槽一下，太难用了，bug还多。基本没有一个能正常跑下来全流程。要经过无数次debug。服了，到底还有没有人维护啊！

May 26 '25 05:05 moka11moka

从0开始，我已经正确跑通40多个了，一把辛酸泪。

May 26 '25 09:05 Catchher

Please provide the details of the bug.

May 26 '25 10:05 tonysy

。。。。。。纯纯造bug，用api推理，报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

May 30 '25 09:05 yang-collect

https://opencompass.readthedocs.io/zh-cn/latest/dataset_statistics.html

这个数据集页面怎么是空的？

Jun 05 '25 08:06 shiwanghua

。。。。。。纯纯造bug，用api推理，报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

换什么工具，有推荐的吗

Jun 10 '25 02:06 boolmriver

。。。。。。纯纯造bug，用api推理，报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

换什么工具，有推荐的吗

用EvalScope或者根据评测集手动实现一个模型调用到评测间的转换，一般评测集起码会提供拿到结果后的评测脚本

Jun 10 '25 02:06 yang-collect

。。。。。。纯纯造bug，用api推理，报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

有啥好用的推荐吗，为用lm-eval也碰到问题了

Sep 05 '25 02:09 baowj-678

。。。。。。纯纯造bug，用api推理，报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

有啥好用的推荐吗，为用lm-eval也碰到问题了

比较合理的方案是看目标评测集的输出格式是啥样的，对齐输出格式，然后让大模型给你写一个评测脚本，也就是借助大模型纯手写一套稳定版的，他们这个只是说有这个功能，能不能用不好说

Sep 05 '25 02:09 yang-collect

可以试试这个工具，熟悉opencompass的人会非常容易上手： https://gitee.com/aisbench/benchmark

Nov 13 '25 04:11 Keithwwa