z-bench icon indicating copy to clipboard operation
z-bench copied to clipboard

Z-Bench 1.0 by 真格基金:一个麻瓜的大语言模型中文测试集。Z-Bench is a LLM prompt dataset for non-technical users, developed by an enthusiastic AI-focused team in Zhenfund.

Results 8 z-bench issues
Sort by recently updated
recently updated
newest added

google的bart最近更新了中文支持, 可以使用目前的测试集进行测试了, 想看一下它和gpt-3.5和gpt-4的差距

主要是此处的内容:https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX?tab=4cuc0p 我发现的错误列表如下: * 基础能力 - 18 - 文心一言 - 应该是正确 * 进阶能力 - 8 - 文心一言 - 文心一言选的是 C 而不是 E,应该回答错误 * 进阶能力 - 13 - GPT-3.5 - 它啥都没画,应该回答错误 *...

应该是更新了 minimax 而非面壁,excel 最后一个 sheet 的更新日志有 typo

“维姬在她朋友奥利弗家的一个聚会上。”这一段应该是翻译自 [Faux Pas Recognition Test(Adult Version)](www.nmr.mgh.harvard.edu/~bradd/ftd/social/stone_fauxpasrecognition_test.pdf) 的第一个故事,但该故事属于对照组,并不包含 faux pas,即答案确实是“没有人说了奇怪的话”。 如果要实现预期目的,可以考虑从实验组中选一个故事提问? 链接中的 pdf 第22页,“Scoring the faux pas task”一节指出了含有 faux pas 的故事。 原文:For each story containing a faux pas (stories 2, 4,...

像这个文件 https://github.com/yizhongw/self-instruct/blob/main/human_eval/user_oriented_instructions.jsonl , 国内App的类似版本。 现有题目里的问题感觉都比较偏难,不知道国内App相关的问题文心一言会不会有优势