opencompass
opencompass copied to clipboard
[Feature] 为什么SanitizedMBPPDataset是取7:264这个范围进行评测?
描述该功能
- 我在检查mbpp结果的时候发现SanitizedMBPPDataset取了其中257进行评测,但是这部分我在其他评测中很少看到类似的评法,不知道有什么paper说明这个问题吗?
是否希望自己实现该功能?
- [ ] 我希望自己来实现这一功能,并向 OpenCompass 贡献代码!
The first few examples are left out for the few shot evluation settings.
那264到387这部分的题目呢?我看evalplus这部分的题目也是在评测中的
那264到387这部分的题目呢?我看evalplus这部分的题目也是在评测中的 SanitizedMBPP应该就264道