[Feature] 纯吐槽,Bug太多了,更新不及时!
描述该功能
纯发一个issue吐槽一下,太难用了,bug还多。基本没有一个能正常跑下来全流程。要经过无数次debug。 服了,到底还有没有人维护啊!
是否希望自己实现该功能?
- [ ] 我希望自己来实现这一功能,并向 OpenCompass 贡献代码!
从0开始,我已经正确跑通40多个了,一把辛酸泪。
Please provide the details of the bug.
。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了
https://opencompass.readthedocs.io/zh-cn/latest/dataset_statistics.html
这个数据集页面怎么是空的?
。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了
换什么工具,有推荐的吗
。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了
换什么工具,有推荐的吗
用EvalScope或者根据评测集手动实现一个模型调用到评测间的转换,一般评测集起码会提供拿到结果后的评测脚本
。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了
有啥好用的推荐吗,为用lm-eval也碰到问题了
。。。。。。 纯纯造bug,用api推理,报错说推理文件不存在。。。。。还没有文档。。。翻代码不如换工具算了
有啥好用的推荐吗,为用lm-eval也碰到问题了
比较合理的方案是看目标评测集的输出格式是啥样的,对齐输出格式,然后让大模型给你写一个评测脚本,也就是借助大模型纯手写一套稳定版的,他们这个只是说有这个功能,能不能用不好说
可以试试这个工具,熟悉opencompass的人会非常容易上手: https://gitee.com/aisbench/benchmark