z-bench
z-bench copied to clipboard
腾讯文档中部分评价有问题
主要是此处的内容:https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX?tab=4cuc0p
我发现的错误列表如下:
- 基础能力 - 18 - 文心一言 - 应该是正确
- 进阶能力 - 8 - 文心一言 - 文心一言选的是 C 而不是 E,应该回答错误
- 进阶能力 - 13 - GPT-3.5 - 它啥都没画,应该回答错误
- 进阶能力 - 16 - 文心一言 - 题目本身有问题,但文心一言的解题过程也不能算对,应该回答错误
- 进阶能力 - 17 - GPT-4 - 应该算正确
- 进阶能力 - 21 - GPT-3.5 - 中文表述部分 "接一个右尖括号和一个左尖括号" 有问题,应该算错
- 进阶能力 - 21 - GPT-4 - 最终部分 "所以后面应该接一个 }" 有问题,应该算错
- 进阶能力 - 45 - 文心一言 - 应该算对
- 进阶能力 - 55 - GPT-3.5 - 日月搞反了,应该算错 (以及参考回答也是错的)
- 进阶能力 - 57 - .. - 参考答案错了,应该是 GPT-4 回答的那个
- 进阶能力 - 65 - GPT-3.5 - 就是因果关系,应该算对 (以及参考回答错了)
- 进阶能力 - 77 - 文心一言 - 应该算对
- 进阶能力 - 88 - 文心一言 - 应该是错 (但是我看不懂这个例句在说什么...)
- 进阶能力 - 93 - ... - 答案漏了
看到进阶能力 - 93 为止,没有继续往后看了
垂直能力-4-GPT-3.5-回答正确 垂直能力-6- -参考答案可能不准确, 联合国提到的数据应该是90% 参考链接 https://news.un.org/zh/story/2018/07/1013512 另外该题与 基础能力-4 重复, 这是可以的还是一个bug? 垂直能力-7-文心一言0427, MOSS-选项是蒙对的, 解释全错, 要求选择非同源, 实际选择了同源的, 而且还蒙对了选项 垂直能力-29- -题意不清晰, 产生的工作含义太笼统, 应该改为产生的产品数量最多