opencompass
opencompass copied to clipboard
[Feature] 请问在使用VLLM测评模型humaneval时,batch_size 不同导致 测评结果有区别是为什么?
Describe the feature
在batch_size 分别为128,64,16的情况下,deepseek 1.3B 的P@1 分别是31.71、30.49、29.27
请问这是为什么?
Will you implement it?
- [ ] I would like to implement this feature and create a PR!