live_code_bench测试集准确率与qwen官方存在偏差
使用最新分支,按下面参数评测live_code_bench数据集结果总是和qwen官方给的存在偏差 偏差大概在百分之3-5这是正常现象吗 task_cfg = { 'model':'Qwen2.5-Coder-1.5B-Instruct', 'datasets':['live_code_bench'], 'dataset_args':{ 'live_code_bench': { 'extra_params': { 'start_date': '2024-08-01', 'end_date': '2024-11-30' }, "filters": {"remove_until": ""} # 过滤掉模型推理过程中的思考部分 }}, 'eval_batch_size': 8, # 发送请求的并发数 'generation_config':{ 'max_tokens':32000, # 最大生成token数,建议设置为较大值避免输出截断 'temperature': 0.6, # 采样温度 (qwen 报告推荐值) 'top_p': 0.95, # top-p采样 (qwen 报告推荐值) 'n': 1 'top_k': 40, # top-k采样 (qwen 报告推荐值) }, }
这里给的generation config是QwQ-32B建议的设置,跟Qwen2.5-Coder-1.5B-Instruct 最佳设置可能不一样
用QwQ-32B跑出来也存在差异
这里给的generation config是QwQ-32B建议的设置,跟Qwen2.5-Coder-1.5B-Instruct 最佳设置可能不一样
是否可以支持一下code类的评测嘞,就是借助另外的工具环境来验证代码的正确性,目前这种评测代码的方式感觉不是太准。
@hyf0214 我这边测 QwQ-32B 差距是一个点,你测的结果怎么样?
@Bigfishering 后续可以考虑一下启动一个code服务来验证