health bench数据集精度测试报错

Open Jwpap opened this issue 1 month ago • 0 comments

自查清单

在提交 issue 之前，请确保您已完成以下步骤:

[ ] 我已仔细阅读了相关使用说明文档
[ ] 我已查看了常见问题解答
[ ] 我已搜索并查看了现有的 issues，确认这不是一个重复的问题

问题描述

请简要描述您遇到的问题。 health bench数据集精度测试报错：第一个子集测完后 review后报错

EvalScope 版本（必填）

v1.2.0

使用的工具

[ ] Native / 原生框架
[ ] Opencompass backend
[ ] VLMEvalKit backend
[ ] RAGEval backend
[ ] Perf / 模型推理压测工具
[ ] Arena / 竞技场模式

执行的代码或指令

evalscope eval
--model /models/Ling-flash-2.0
--api-url http://0.0.0.0:30000/v1/chat/completions
--api-key EMPTY
--eval-type server
--datasets health_bench
--timeout 10000
--eval-batch-size 8
--stream
--use-cache /workspace/evalscope/outputs/20251128_114536 --judge-strategy llm
--judge-model-args '{"api_url": "http://10.213.208.143:30000/v1/chat/completions", "model_id": "/workspace/models/DeepSeek-R1-w4a8-v3"}' 请提供您执行的主要代码或指令。

错误日志

请粘贴完整的错误日志或控制台输出。

运行环境

操作系统：
Python版本：

其他信息

如果有其他相关信息，请在此处提供。

Nov 28 '25 07:11 Jwpap