eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

health bench数据集精度测试报错

Open Jwpap opened this issue 1 month ago • 0 comments

自查清单

在提交 issue 之前,请确保您已完成以下步骤:

问题描述

请简要描述您遇到的问题。 health bench数据集精度测试报错: 第一个子集 测完后 review后报错

Image

EvalScope 版本(必填)

v1.2.0

使用的工具

  • [ ] Native / 原生框架
  • [ ] Opencompass backend
  • [ ] VLMEvalKit backend
  • [ ] RAGEval backend
  • [ ] Perf / 模型推理压测工具
  • [ ] Arena / 竞技场模式

执行的代码或指令

evalscope eval
--model /models/Ling-flash-2.0
--api-url http://0.0.0.0:30000/v1/chat/completions
--api-key EMPTY
--eval-type server
--datasets health_bench
--timeout 10000
--eval-batch-size 8
--stream
--use-cache /workspace/evalscope/outputs/20251128_114536 --judge-strategy llm
--judge-model-args '{"api_url": "http://10.213.208.143:30000/v1/chat/completions", "model_id": "/workspace/models/DeepSeek-R1-w4a8-v3"}' 请提供您执行的主要代码或指令。

错误日志

请粘贴完整的错误日志或控制台输出。

运行环境

  • 操作系统:
  • Python版本:

其他信息

如果有其他相关信息,请在此处提供。

Jwpap avatar Nov 28 '25 07:11 Jwpap