eval-scope live_code_bench测试集准确率与qwen官方存在偏差

使用最新分支，按下面参数评测live_code_bench数据集结果总是和qwen官方给的存在偏差偏差大概在百分之3-5这是正常现象吗 task_cfg = { 'model':'Qwen2.5-Coder-1.5B-Instruct', 'datasets':['live_code_bench'], 'dataset_args':{ 'live_code_bench': { 'extra_params': { 'start_date': '2024-08-01', 'end_date': '2024-11-30' }, "filters": {"remove_until": ""} # 过滤掉模型推理过程中的思考部分 }}, 'eval_batch_size': 8, # 发送请求的并发数 'generation_config':{ 'max_tokens':32000, # 最大生成token数，建议设置为较大值避免输出截断 'temperature': 0.6, # 采样温度 (qwen 报告推荐值) 'top_p': 0.95, # top-p采样 (qwen 报告推荐值) 'n': 1 'top_k': 40, # top-k采样 (qwen 报告推荐值) }, }

Apr 28 '25 12:04 hyf0214

这里给的generation config是QwQ-32B建议的设置，跟Qwen2.5-Coder-1.5B-Instruct 最佳设置可能不一样

Apr 29 '25 05:04 Yunnglin

用QwQ-32B跑出来也存在差异

Apr 29 '25 05:04 hyf0214

这里给的generation config是QwQ-32B建议的设置，跟Qwen2.5-Coder-1.5B-Instruct 最佳设置可能不一样

是否可以支持一下code类的评测嘞，就是借助另外的工具环境来验证代码的正确性，目前这种评测代码的方式感觉不是太准。

Apr 30 '25 03:04 Bigfishering

@hyf0214 我这边测 QwQ-32B 差距是一个点，你测的结果怎么样？

May 07 '25 08:05 Yunnglin

@Bigfishering 后续可以考虑一下启动一个code服务来验证

May 07 '25 08:05 Yunnglin