SuperCLUE 感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？ 2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~ 3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

May 09 '23 06:05 lrs1353281004

同文+1，具体的题目数量有多少呢

May 09 '23 07:05 littlepan0413

期待把每一期的题目公布出来，大家一起共创。

May 09 '23 08:05 qiangmzsx

放出来厂商就可以作弊了 lol

May 09 '23 10:05 mali-nuist

看到人类得分那么高，就知道这个项目不靠谱。

May 09 '23 14:05 stenlylee

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？ 2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~ 3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

1）当前报告的分数是采用开卷形式做题目的分数，所以结果比较高。我们也计划报告一下闭卷形式的分数。 2）人类的水平是本科生、研究生的水平 3）代码生成方面gpt-4还是很强的。只是我们的题目是客观题，而不是纯生成题，所以gpt-4强大的生成能力，可能没有那么明显。

May 15 '23 02:05 brightmart

感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下