SuperCLUE icon indicating copy to clipboard operation
SuperCLUE copied to clipboard

感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下

Open lrs1353281004 opened this issue 2 years ago • 5 comments

1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单? 2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~ 3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够

lrs1353281004 avatar May 09 '23 06:05 lrs1353281004

同文+1,具体的题目数量有多少呢

littlepan0413 avatar May 09 '23 07:05 littlepan0413

期待把每一期的题目公布出来,大家一起共创。

qiangmzsx avatar May 09 '23 08:05 qiangmzsx

放出来厂商就可以作弊了 lol

mali-nuist avatar May 09 '23 10:05 mali-nuist

看到人类得分那么高,就知道这个项目不靠谱。

stenlylee avatar May 09 '23 14:05 stenlylee

1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单? 2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~ 3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够

1)当前报告的分数是采用开卷形式做题目的分数,所以结果比较高。我们也计划报告一下闭卷形式的分数。 2)人类的水平是本科生、研究生的水平 3)代码生成方面gpt-4还是很强的。只是我们的题目是客观题,而不是纯生成题,所以gpt-4强大的生成能力,可能没有那么明显。

brightmart avatar May 15 '23 02:05 brightmart