MACM
MACM copied to clipboard
希望复现一下结果,可否说明下用了MATH的哪部分数据?
您好, 我们第一次选用了MATH中每个subset前1/3的数据进行了实验,第二次随机选取了1/3的数据进行了实验。两次结果差别不大,最终汇报的结果是平均值。您有兴趣的话随机从MATH中选取数据点进行测试即可,结果应该差不多。为了减少测量时间,建议多搞几个程序并行跑。如果嫌gpt太烧钱也可以直接拿几个它本身回答错的问题来这儿测试。