z-bench issues

1

google的bart最近更新了中文支持, 可以使用目前的测试集进行测试了, 想看一下它和gpt-3.5和gpt-4的差距

腾讯文档中部分评价有问题

1

主要是此处的内容：https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX?tab=4cuc0p 我发现的错误列表如下： * 基础能力 - 18 - 文心一言 - 应该是正确 * 进阶能力 - 8 - 文心一言 - 文心一言选的是 C 而不是 E，应该回答错误 * 进阶能力 - 13 - GPT-3.5 - 它啥都没画，应该回答错误 *...

Leymore

0512 更新问题

应该是更新了 minimax 而非面壁，excel 最后一个 sheet 的更新日志有 typo

kenxjc

“维姬在她朋友奥利弗家的一个聚会上。”这一段应该是翻译自 [Faux Pas Recognition Test(Adult Version)](www.nmr.mgh.harvard.edu/~bradd/ftd/social/stone_fauxpasrecognition_test.pdf) 的第一个故事，但该故事属于对照组，并不包含 faux pas，即答案确实是“没有人说了奇怪的话”。如果要实现预期目的，可以考虑从实验组中选一个故事提问？链接中的 pdf 第22页，“Scoring the faux pas task”一节指出了含有 faux pas 的故事。原文：For each story containing a faux pas (stories 2, 4,...

aliasRevir

可否增加一些国内App相关的问题？

1

像这个文件 https://github.com/yizhongw/self-instruct/blob/main/human_eval/user_oriented_instructions.jsonl ，国内App的类似版本。现有题目里的问题感觉都比较偏难，不知道国内App相关的问题文心一言会不会有优势

yuekaizhang

大模型的输出都是 probabilistic。建议每个问题多跑几次，更科学！

1

谢谢创作！

yiqinfu

z-bench
z-bench copied to clipboard

Metadata

进阶能力-155，驾驶游戏，这题的答案是？

请求添加对谷歌的bart的测试

腾讯文档中部分评价有问题

0512 更新问题

没法登录

进阶能力中，prompt 198 是否应修改？

可否增加一些国内App相关的问题？

大模型的输出都是 probabilistic。建议每个问题多跑几次，更科学！

← Metadata

Owner

Metadata

z-bench z-bench copied to clipboard

Metadata

← Metadata

Owner

Metadata

z-bench
z-bench copied to clipboard