opencompass icon indicating copy to clipboard operation
opencompass copied to clipboard

[Feature] 纯吐槽,Bug太多了,更新不及时!

Open moka11moka opened this issue 7 months ago • 9 comments

描述该功能

纯发一个issue吐槽一下,太难用了,bug还多。基本没有一个能正常跑下来全流程。要经过无数次debug。 服了,到底还有没有人维护啊!

是否希望自己实现该功能?

  • [ ] 我希望自己来实现这一功能,并向 OpenCompass 贡献代码!

moka11moka avatar May 26 '25 05:05 moka11moka

从0开始,我已经正确跑通40多个了,一把辛酸泪。

Catchher avatar May 26 '25 09:05 Catchher

Please provide the details of the bug.

tonysy avatar May 26 '25 10:05 tonysy

。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

yang-collect avatar May 30 '25 09:05 yang-collect

https://opencompass.readthedocs.io/zh-cn/latest/dataset_statistics.html

这个数据集页面怎么是空的?

shiwanghua avatar Jun 05 '25 08:06 shiwanghua

。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

换什么工具,有推荐的吗

boolmriver avatar Jun 10 '25 02:06 boolmriver

。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

换什么工具,有推荐的吗

用EvalScope或者根据评测集手动实现一个模型调用到评测间的转换,一般评测集起码会提供拿到结果后的评测脚本

yang-collect avatar Jun 10 '25 02:06 yang-collect

。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

有啥好用的推荐吗,为用lm-eval也碰到问题了

baowj-678 avatar Sep 05 '25 02:09 baowj-678

。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了

有啥好用的推荐吗,为用lm-eval也碰到问题了

比较合理的方案是看目标评测集的输出格式是啥样的,对齐输出格式,然后让大模型给你写一个评测脚本,也就是借助大模型纯手写一套稳定版的,他们这个只是说有这个功能,能不能用不好说

yang-collect avatar Sep 05 '25 02:09 yang-collect

可以试试这个工具,熟悉opencompass的人会非常容易上手: https://gitee.com/aisbench/benchmark

Keithwwa avatar Nov 13 '25 04:11 Keithwwa